2016-09-23 7 views
0

データセットはチャンクによって読み込まれます。 idsは最初の列で、配列のようなデータ構造に格納したいと考えています。これまでのところ、それは動作していません。このように見えますPython Pandas:チャンクからデータのIDを取得します。

tf = pd.read_csv('data.csv', chunksize=chunksize) 
for chunk in tf: 
    here I wanna store the ids chunk["Id"] in an array 

どうすればよいですか?あなたはそれをこのように行うことができます

+0

なぜあなたはちょうどそのコラムを読んでいない:

ids = pd.DataFrame() tf = pd.read_csv('data.csv', chunksize=chunksize) for chunk in tf: ids = pd.concat([ids, chunk['Id']], ignore_index=True) 

をあなたはnumpyの配列としてidsシリーズに常にアクセスすることができますか?例えば'tf = pd.read_csv( 'data.csv'、usecols = ['Id'])'? – EdChum

答えて

1

IIUC:

ids.values 
+0

しかし、残りの行も必要です。だから私はusecolsを使用しません。 – tumbler

+0

しかし、現在の問題には関係ありません。私はちょうどあなた自身のようにあなたの前の答えを修正しました。 – tumbler

+0

カラム名をIdとしてどのように設定できますか? – tumbler

関連する問題