大きなCSVファイルをマージしながら、パンダのデータフレームを使用して、大きなCSVファイルで作業しながら、私は、メモリエラーに関して質問を投稿していました。もっと明確にするために、別の質問をしています。大きなcsvファイル(3,000万行以上)をマージする際に、メモリエラーが発生しました。では、これに対する解決策は何ですか?ありがとう!十数百万行のデータセットを処理するためのPython /パンダを使用してPythonのパンダのメモリエラー
-1
A
答えて
0
は理想的ではありません。大規模なCSVを処理するのではなく、Redshiftのようなデータベースにデータを保管することを検討してください。ここでは、Pandasの場合よりも何千も高速にデータを照会して操作できます。あなたのデータがデータベースになったら、あなたは/ /フィルタを集約し、あなたがしたい場合にはパンダを使用した「一口サイズ」輸出や現地分析のための抽出にデータを再構築するためにSQLを使用することができます。
長期では、Scalaの上に構築された分散データ分析フレームワークであるスパークを使用することを検討してください。間違いなくパンダよりも急な学習曲線がありますが、多くのコアコンセプトを借りています。
赤方偏移:https://aws.amazon.com/redshift/
スパーク:あなたはcsvファイルをストリーミングすることで、あなたのcsvファイルを読むことができますhttp://spark.apache.org/
+0
++ Spark! – MaxU
関連する問題
- 1. パンダ複数のデータフレームは、メモリエラー
- 2. パンダを使用したweb.datareaderのメモリエラー
- 3. f.readでのPythonメモリエラー
- 4. 共有ホストのpythonメモリエラー
- 5. CUMSUMパンダ - Pythonのパンダ
- 6. pythonのnumpy.pad関数でのメモリエラー
- 7. パンダ大きなデータフレームを読み取ったときのメモリエラー
- 8. Pythonのパンダは、Pythonのパンダで
- 9. メモリエラー大型JSONファイルのpython 3.4
- 10. 小さなデータセットのPython networkxメモリエラー
- 11. Pythonのパンダ:DATAFRAME
- 12. Pythonのパンダ - DATAFRAME
- 13. Pythonのパンダ:グループ
- 14. のpythonパンダ - データフレーム
- 15. PythonのパンダCSV:
- 16. Pythonのパンダ:データフレーム
- 17. のpythonパンダ -
- 18. :pythonのパンダ
- 19. のpythonパンダ
- 20. Pythonのパンダ
- 21. Pythonのパンダ:カラム
- 22. パンダ(Python)の「アンチマージ」
- 23. のpython、パンダ:マルチインデックス
- 24. Pythonのパンダは :)
- 25. メモリエラー()
- 26. パンダのデータフレームメモリのpython
- 27. Python - Hugeデータセットでメモリエラーを回避する
- 28. Androidのメモリエラー
- 29. free()のメモリエラー
- 30. Wordpressデータベースのメモリエラー
、これに[ポスト]を参照してください。(http://stackoverflow.com/questions/17444679/reading- a-huge-csv-in-python)を使用しています。または、あなたのPCでRAMを購入して追加することができます!あなたが機械学習/深い学習の仕事の多くを行う必要がある場合は、それはおそらく最高のソリューションです。 –
は – Alexander
問題がファイルを読んでいません...より多くのメモリを取得します。ファイルを読み込んだ後、それらを変数の1つに基づいてマージしたいとしましょう。テーブルをマージする際にエラーメッセージが表示されます。 –