2016-08-20 4 views
5

私は、大きなCSVファイルを持っており、それは次のように私はpd.read_csvで開きを使用してパンダと、選択した行を開きます私はread_csvは「チャンク」および/または「イテレータ」

の引数にチャンク= 512を追加した場合...行

from 0 to 511 
from 512 to 1023 
from 1024 to 1535 
... 
from 512*n to 512*(n+1) - 1 

のn = 1、2、3で開くことができるように

をしたいと思います

df = pd.read_csv(path//fileName.csv, sep = ' ', header = None, chunksize = 512) 

と私は0~5から行を開くことができるAMまたはIループ

data = [] 
for chunks in df: 
    data = data + [chunk] 
に使用して512行の部分にファイルを分割することができているよりも

df.get_chunk(5) 

を入力

しかし、ファイルが完全に開かれ、時間がかかるので、これは全く役に立たない。 512 * nから512 *(n + 1)までの行のみを読み取るにはどうすればよいですか。周りを見る

私は、多くの場合、それが

df = pd.read_csv(path//fileName.csv, sep = ' ', header = None, iterator = True, chunksize = 512) 

を次のように「チャンクサイズ」を「イテレータ」と一緒に使用されていることがわかりました。しかし、多くの試行の後、私はまだ私にこのブール変数を提供給付かを理解していません。私に説明してくれませんか?

答えて

6

512 * nから512 *(n + 1)までの行のみを読み取るにはどうすればよいですか?

df = pd.read_csv(fn, header=None, skiprows=512*n, nrows=512) 

あなたは、このようにそれを行うことができます(そしてそれはかなり便利です):

for chunk in pd.read_csv(f, sep = ' ', header = None, chunksize = 512): 
    # process your chunk here 

デモ:この場合、 "イテレータ" で

In [61]: fn = 'd:/temp/a.csv' 

In [62]: pd.DataFrame(np.random.randn(30, 3), columns=list('abc')).to_csv(fn, index=False) 

In [63]: for chunk in pd.read_csv(fn, chunksize=10): 
    ....:  print(chunk) 
    ....: 
      a   b   c 
0 2.229657 -1.040086 1.295774 
1 0.358098 -1.080557 -0.396338 
2 0.731741 -0.690453 0.126648 
3 -0.009388 -1.549381 0.913128 
4 -0.256654 -0.073549 -0.171606 
5 0.849934 0.305337 2.360101 
6 -1.472184 0.641512 -1.301492 
7 -2.302152 0.417787 0.485958 
8 0.492314 0.603309 0.890524 
9 -0.730400 0.835873 1.313114 
      a   b   c 
0 1.393865 -1.115267 1.194747 
1 3.038719 -0.343875 -1.410834 
2 -1.510598 0.664154 -0.996762 
3 -0.528211 1.269363 0.506728 
4 0.043785 -0.786499 -1.073502 
5 1.096647 -1.127002 0.918172 
6 -0.792251 -0.652996 -1.000921 
7 1.582166 -0.819374 0.247077 
8 -1.022418 -0.577469 0.097406 
9 -0.274233 -0.244890 -0.352108 
      a   b   c 
0 -0.317418 0.774854 -0.203939 
1 0.205443 0.820302 -2.637387 
2 0.332696 -0.655431 -0.089120 
3 -0.884916 0.274854 1.074991 
4 0.412295 -1.561943 -0.850376 
5 -1.933529 -1.346236 -1.789500 
6 1.652446 -0.800644 -0.126594 
7 0.520916 -0.825257 -0.475727 
8 -2.261692 2.827894 -0.439698 
9 -0.424714 1.862145 1.103926 

が役立つことができますか?

chunksizeを使用すると、すべてのチャンクは同じ長さになります。あなたは、各反復で読みたいどれだけのデータ(get_chunk(nrows))を定義することができますiteratorパラメータの使用:

In [66]: reader = pd.read_csv(fn, iterator=True) 

は今、我々は次の5行を読んであげるのは、最初の3行

In [67]: reader.get_chunk(3) 
Out[67]: 
      a   b   c 
0 2.229657 -1.040086 1.295774 
1 0.358098 -1.080557 -0.396338 
2 0.731741 -0.690453 0.126648 

を読んでみましょう

In [68]: reader.get_chunk(5) 
Out[68]: 
      a   b   c 
0 -0.009388 -1.549381 0.913128 
1 -0.256654 -0.073549 -0.171606 
2 0.849934 0.305337 2.360101 
3 -1.472184 0.641512 -1.301492 
4 -2.302152 0.417787 0.485958 

次の7行:

In [69]: reader.get_chunk(7) 
Out[69]: 
      a   b   c 
0 0.492314 0.603309 0.890524 
1 -0.730400 0.835873 1.313114 
2 1.393865 -1.115267 1.194747 
3 3.038719 -0.343875 -1.410834 
4 -1.510598 0.664154 -0.996762 
5 -0.528211 1.269363 0.506728 
6 0.043785 -0.786499 -1.073502 
+0

私は何かをマージする必要はありません、私はちょうど言うから行を開く必要があります...他の何も開くことなく、512 * 10から512 * 11 -1、それは可能ですか? –

+0

私のIPythonにコードをコピーして渡したところ、 "iterator = True"で1回、 "iterator = False"でもう一度試しましたが、違いはありません。この場合、「イテレータ」は役に立ちますか? –

+0

@StefanoFedele、私は例で私の答えを更新しました。それは 'chunksize'と' iterator'の違いを明確にするはずです... – MaxU

関連する問題