これは確かに広範なトピックです。私は、Pandasの新人として、通常のコンピュータでは読み込めないデータを扱うためのさまざまな選択肢について、記述しコメントすることができるStackoverflowの記事を持っていると便利です(16Gb RAMの)。私は現在、約50Gbを簡単に処理する方法を学んでいます。大きなデータ用のPythonの代替手段
これまでのところ、私はchrisbとNoobieが潜在的な代替案としてDaskを挙げてきました。理想的には、私はPandasで通常と同じような操作をしたいと思います。
私はフォーラムを読んで、cvsファイルをより管理しやすい1Gbファイルに分割するいくつかの方法を見つけました。これらのファイルは、read_csvを使用して個別にロードして処理できます。たとえば、この質問How can I split a large file csv file (7GB) in Pythonは、大きなcvsファイルを分割する方法を示しています。
1)しかし、groupbyのような典型的なパンダの機能を、いくつかの別々のcsvファイルですべてメモリに読み込まずに効率的に動作させるにはどうすればよいでしょうか?
2)大規模なデータセットに対処する他のPythonライブラリについて触れました。たとえば、このコミュニティの一部の投稿は、大規模なデータ処理の代替手段としてHDF5とBlazerを参照しています。それは私がしたいことにどのように適合しますか?一般的なパンダの操作を実行するためにこれらのライブラリや他のライブラリを使用する例は何でしょうか?
3)この大きなデータを処理するには、どのような推奨経路が必要でしょうか?この 大きなデータを扱うために従うように推奨パスされるもの)
ありがとうございました、私はあなたの助けに感謝し、
データの構造によっては、分析が「dask」の場合、あまり苦痛を伴うことなく、単一の8GBマシンでこれを処理できます。 – chrisb
はい。ドキュメントをチェックしてください。 daskは分散マシン・コンピューティングを使用することもできます。 –
ありがとう、私はあなたの返信をありがとう。パンダからdaskへの移行はどのように行われますか? – dleal