25Kレコードを含む1.2GのCSVファイルを読み込もうとしていますが、それぞれIDと大きな文字列で構成されています。 VMは、140ギガバイトのRAMを持っているので、奇妙なようだパンダread_csv()140GBのRAMを搭載したVM上の1.2GBのファイルメモリ
pandas.io.common.CParserError: Error tokenizing data. C error: out of memory
と10K行でメモリ使用量はわずか約1%以下である:
はしかし、10K行の周りに、私はこのエラーを取得します。
これは私が使用するコマンドです:
pd.read_csv('file.csv', header=None, names=['id', 'text', 'code'])
また、私は成功し、100%近くまで私の記憶を埋めることができ、次のダミーのプログラムを、走りました。
list = []
list.append("hello")
while True:
list.append("hello" + list[len(list) - 1])
あなたは 'chunksize'パラメータを使用してチャンク内のファイルを読み込もうとしましたか? – MaxU
@MaxUそれはイテレータを返すので、可能ならば避けたい私のコードでそれを処理しなければならないでしょう –