大きなデータフレームの最初のチャンクを読み取る方法は？

df = pd.read_csv("train.csv", chunksize=10**6) 

for chunk in df: 
    print chunk 
    break

がより正しいとは何ですか（悪いスタイルで）ので、代わりに私が書いた私のiPythonノートパソコンがクラッシュ？私はちょうど最初の百万行を見たいと思う。

どういう意味ですか？最初の100万行を表示するには、3行すべてが必要です。実際には、ディスクIOは一般的にCPUよりも遅いため、小さな部分で読むことをお勧めします。 – Kartik

あなたはiteratorパラメータread_csvに試すことができます：あなたが得るまで、それは大きなにまだなら

reader = pd.read_csv("train.csv", iterator=True) 
df = reader.get_chunk(10**6)

は、あなたがループ内で小さなチャンクを読んで（そしておそらく変換または新しいファイルに書き戻す）ことができます何を必要。

2016-08-10 03:33:33 ptrj

答えて