2016-05-12 8 views
-1

大きなCSVファイルをマージしながら、パンダのデータフレームを使用して、大きなCSVファイルで作業しながら、私は、メモリエラーに関して質問を投稿していました。もっと明確にするために、別の質問をしています。大きなcsvファイル(3,000万行以上)をマージする際に、メモリエラーが発生しました。では、これに対する解決策は何ですか?ありがとう!十数百万行のデータセットを処理するためのPython /パンダを使用してPythonのパンダのメモリエラー

+0

、これに[ポスト]を参照してください。(http://stackoverflow.com/questions/17444679/reading- a-huge-csv-in-python)を使用しています。または、あなたのPCでRAMを購入して追加することができます!あなたが機械学習/深い学習の仕事の多くを行う必要がある場合は、それはおそらく最高のソリューションです。 –

+1

は – Alexander

+0

問題がファイルを読んでいません...より多くのメモリを取得します。ファイルを読み込んだ後、それらを変数の1つに基づいてマージしたいとしましょう。テーブルをマージする際にエラーメッセージが表示されます。 –

答えて

0

は理想的ではありません。大規模なCSVを処理するのではなく、Redshiftのようなデータベースにデータを保管することを検討してください。ここでは、Pandasの場合よりも何千も高速にデータを照会して操作できます。あなたのデータがデータベースになったら、あなたは/ /フィルタを集約し、あなたがしたい場合にはパンダを使用した「一口サイズ」輸出や現地分析のための抽出にデータを再構築するためにSQLを使用することができます。

長期では、Scalaの上に構築された分散データ分析フレームワークであるスパークを使用することを検討してください。間違いなくパンダよりも急な学習曲線がありますが、多くのコアコンセプトを借りています。

赤方偏移:https://aws.amazon.com/redshift/

スパーク:あなたはcsvファイルをストリーミングすることで、あなたのcsvファイルを読むことができますhttp://spark.apache.org/

+0

++ Spark! – MaxU