2017-09-07 6 views
0

following dataで作業しようとしていますが、引き続きメモリエラーが発生しています。パンダ大きなhmdaデータを使って作業する

私は全体のcsvファイルを読み込むことができたならば、私はのような何かを行うことによってaction_taken_nameごとの項目の合計数のような質問に答えることができるようになります:メモリの制約を考えると

df = pd.pread_csv('path/to/my_file.csv') 
df.groupby('action_taken_name').agg({'action_taken_name':'count'}) 

、何でしょうこれに最もスマートにアプローチする方法は?

私はいろいろな問題に走り続け、より良い方法が必要であると感じています。

ありがとうございます!

答えて

1

read_csvにはいくつか役立つ方法があります。必要な列だけを選択するか、chunksizeを使用して部分的に表示します。

+0

私は特定の列だけを読むことに決めました。 –

関連する問題