2016-08-10 3 views
0

私は3ギガバイトのファイルを持っているとpd.read_csv(...)大きなデータフレームの最初のチャンクを読み取る方法は?

df = pd.read_csv("train.csv", chunksize=10**6) 

for chunk in df: 
    print chunk 
    break 

がより正しいとは何ですか(悪いスタイルで)ので、代わりに私が書いた私のiPythonノートパソコンがクラッシュ?私はちょうど最初の百万行を見たいと思う。

+0

どういう意味ですか?最初の100万行を表示するには、3行すべてが必要です。実際には、ディスクIOは一般的にCPUよりも遅いため、小さな部分で読むことをお勧めします。 – Kartik

答えて

1

あなたはiteratorパラメータread_csvに試すことができます:あなたが得るまで、それは大きなにまだなら

reader = pd.read_csv("train.csv", iterator=True) 
df = reader.get_chunk(10**6) 

は、あなたがループ内で小さなチャンクを読んで(そしておそらく変換または新しいファイルに書き戻す)ことができます何を必要。

関連する問題