Pythonのパンダのメモリエラー

-1

大きなCSVファイルをマージしながら、パンダのデータフレームを使用して、大きなCSVファイルで作業しながら、私は、メモリエラーに関して質問を投稿していました。もっと明確にするために、別の質問をしています。大きなcsvファイル（3,000万行以上）をマージする際に、メモリエラーが発生しました。では、これに対する解決策は何ですか？ありがとう！十数百万行のデータセットを処理するためのPython /パンダを使用してPythonのパンダのメモリエラー

出典

2016-05-12 physics_2015

、これに[ポスト]を参照してください。（http://stackoverflow.com/questions/17444679/reading- a-huge-csv-in-python）を使用しています。または、あなたのPCでRAMを購入して追加することができます！あなたが機械学習/深い学習の仕事の多くを行う必要がある場合は、それはおそらく最高のソリューションです。 –

は – Alexander

問題がファイルを読んでいません...より多くのメモリを取得します。ファイルを読み込んだ後、それらを変数の1つに基づいてマージしたいとしましょう。テーブルをマージする際にエラーメッセージが表示されます。 –

は理想的ではありません。大規模なCSVを処理するのではなく、Redshiftのようなデータベースにデータを保管することを検討してください。ここでは、Pandasの場合よりも何千も高速にデータを照会して操作できます。あなたのデータがデータベースになったら、あなたは/ /フィルタを集約し、あなたがしたい場合にはパンダを使用した「一口サイズ」輸出や現地分析のための抽出にデータを再構築するためにSQLを使用することができます。

長期では、Scalaの上に構築された分散データ分析フレームワークであるスパークを使用することを検討してください。間違いなくパンダよりも急な学習曲線がありますが、多くのコアコンセプトを借りています。

赤方偏移：https://aws.amazon.com/redshift/

スパーク：あなたはcsvファイルをストリーミングすることで、あなたのcsvファイルを読むことができますhttp://spark.apache.org/

出典

2016-05-12 17:28:31

++ Spark！ – MaxU

Pythonのパンダのメモリエラー

答えて

関連する問題