2016-09-08 8 views
2

私は何百万もの行を持つ100GBのcsvファイルを持っています。私は、パンダのデータフレームで一度に10,000行を読んで、それをチャンクのSQLサーバに書き込む必要があります。大きなcsvファイルを読み取っている間にpandasのメモリ問題を解決する方法

http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunkで提案されているように、chunksizeとiteartorを使用しましたが、多くの同様の質問がありましたが、まだメモリ不足が発生しています。

パンダのデータフレームに非常に大きなcsvファイルを繰り返し読み込むコードを提案できますか?

答えて

1

デモ:connは(sqlalchemy.create_engine(...)によって作成された)SQLAlchemyのエンジン

+0

すごいです...これは私がに取り組んでされている問題のためのはるかにエレガントなソリューションであることが判明し

for chunk in pd.read_csv(filename, chunksize=10**5): chunk.to_sql('table_name', conn, if_exists='append') 

今かなりの時間!ありがとう! – Geet

+0

@Geet、私が助けることができてうれしい... :)答えを受け入れてくれてありがとう! – MaxU

関連する問題