2016-05-12 6 views
-1

大きなCSVファイル(3000万行以上)でPandasを使用しているときにメモリの問題が発生しました。だから、私はこれのための最善の解決策は何ですか?私はカップルの大きなテーブルをマージする必要があります。どうもありがとう!大きなCSVファイルで作業中にpython pandasのメモリエラーが発生しました

+0

csvファイルのサイズは?RAMのサイズは?あなたは 'low_memory = False'や' chunksize'のようなプロパティをデータの読み込み中に試しましたか? –

答えて

0

Fastest way to parse large CSV files in Pandasの可能な複製。

推論はあなたが頻繁にロード csvファイルのデータであれば、より良い方法は、(従来のread_csvで)一度それを解析し、HDF5形式に保存するだろう、です。 PandasPyTablesライブラリ)は、この問題を効率的に処理する方法を提供します[docs]。

また、What is the fastest way to upload a big csv file in notebook to work with python pandas?への答えはあなたcsvcsv.gzPickleHDF5比較したサンプルデータセットの時限式実行(はtimeit)を示しています。

+0

問題は、ファイルをアップロードしていません。問題は、カップルの大きなテーブルをマージすることです。 –

+0

この場合、あなたの質問は少し誤解を招きます。しかし、HDF5フォーマットは依然としてあなたの要求に最も適しています。 Ref [this](http://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas)を参照してください。 –

関連する問題