大文字の.csv
を約20MB
のように読まなければならない。これらのファイルは、8
の列と5198
の行で構成されるテーブルです。私は特定の列にいくつかの統計を行う必要がありますI
。Python:大きな.csvファイルを読むには最適な方法ですか?
私はn
異なるファイルを持っており、これは私が何をやっている:
stat = np.arange(n)
I = 0
for k in stat:
df = pd.read_csv(pathS+'run_TestRandom_%d.csv'%k, sep=' ')
I+=df['I']
I = I/k ## Average
をこのプロセスは0.65s
を取り、最速の方法がある場合、私は思って。
多分 'memory.map = True'を' pd.read_csv'で指定しようとします –
- データが排他的に数値であるなら、** csv **モジュールを使う必要はありません。 ** split **を使用することができます。 - レコードフィールドにアクセスするために辞書を使用するための若干のオーバーヘッドがあります。代わりに、csvのヘッダーで** find **を使用して、そのインデックスを使用して分割レコードから項目を取得することができます。 –
最初の行は数値ではありませんが、 'split'を使用することは可能ですか? – emax