私は米国の航空会社便のデータセットであるwww.transtats.govからcsvデータセットを取るプログラムを作成しようとしています。私の目標は、最悪の遅延が全体的に発生した空港から、最悪の飛行であることを意味する飛行を見つけることです。これまでのところ私はこれを持っている:私は、フライト番号のリストと、それらのフライト番号からの総遅延のリストを作成し、両者を比較すると、最も高い遅延の合計を持っていた飛行見ることができたことを考えていたこれらのデータセットをcsvと比較するにはどうすればよいですか? Python 2.7
`import csv
with open('826766072_T_ONTIME.csv') as csv_infile: #import and open CSV
reader = csv.DictReader(csv_infile)
total_delay = 0
flight_count = 0
flight_numbers = []
delay_totals = []
dest_list = [] #create empty list of destinations
for row in reader:
if row['ORIGIN'] == 'BOS': #only take flights leaving BOS
if row['FL_NUM'] not in flight_numbers:
flight_numbers.append(row['FL_NUM'])
if row['DEST'] not in dest_list: #if the dest is not already in the list
dest_list.append(row['DEST']) #append the dest to dest_list
for number in flight_numbers:
for row in reader:
if row['ORIGIN'] == 'BOS': #for flights leaving BOS
if row['FL_NUM'] == number:
if float(row['CANCELLED']) < 1: #if the flight is not cancelled
if float(row['DEP_DELAY']) >= 0: #and the delay is greater or equal to 0 (some flights had negative delay?)
total_delay += float(row['DEP_DELAY']) #add time of delay to total delay
flight_count += 1 #add the flight to total flight count
for row in reader:
for number in flight_numbers:
delay_totals.append(sum(row['DEP_DELAY']))`
。 2つのリストを比較する最良の方法は何ですか?
比較したいリストの例を表示できますか。これはあなたや他の人たちが簡単な解決法を見つけるのに役立ちます。 – Phil
統計的には、1回の飛行遅延が非常に短い場合であっても、より頻繁な飛行では合計遅延が長くなる可能性があるため、合計遅延を計算する問題があります。合計の代わりに平均することができますか? –
それは本当です。私は、各便名のために、より多くのまたはより少ない便を考慮に入れるために平均遅延を計算しなければなりません。平均的には、私はまだ合計が必要で、フライト数を合計し、単純な合計遅延/合計フライトを正確に行いますか? –