私は125497040行と6列の非常に大きなデータセットを持っています。私がパンダでCSVファイル全体を読み込もうとすると、システムがクラッシュするため、ファイルをチャンクで読み込みます。「大規模なCSVの一部を読んだり、何らかのステップでそれを読み取る方法」
チャンクを読み込んでデータ全体を視覚化する方法はありますか?
私は125497040行と6列の非常に大きなデータセットを持っています。私がパンダでCSVファイル全体を読み込もうとすると、システムがクラッシュするため、ファイルをチャンクで読み込みます。「大規模なCSVの一部を読んだり、何らかのステップでそれを読み取る方法」
チャンクを読み込んでデータ全体を視覚化する方法はありますか?
すべてのデータを1つの小さなチャートで見ることはできないので、一度にすべてのデータを視覚化することは好ましくありません。スムージングアルゴリズムや近似アルゴリズムを使用することもできますし、特定のステップでポイントを取得することもできます。そして、あなたはチャートのズームでこれを詳述するかもしれません。
Plotlyhttps://plot.ly/javascript/zoom-events/を参照してください。
これが満足のいく方法であれば、たとえば「大規模なCSVの部分を読み込む方法、または何らかの手順で読む方法」などの質問を再定式化する価値があります。そして、この問題は、これを使用して解決することができ、そうです:
http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk
+ https://pypi.python.org/pypi/pandasql、https://www.r-bloggers.com/turning-data-into-を使用してみることもできます。 awesome-with-sqldf-and-pandasql /です。それはDBで直接作業することができますが、私はそれを使用したことはありませんが、あなたが試すことができます=) –
ありがとうマックス、私は言ったようにしよう:) –
あなたは 'matplotlib'パッケージを使用してデータをプロットし、それを –
を可視化する。しかし、このような巨大なデータセットを操作するための十分なメモリであることができますか? – demonplus
@GarbageCollector:私はmatplotlibを使うことができると知っていますが、傾向とパターンを見るためにデータセット全体を一度に可視化できるかどうかを知りたかったのです。私は部品でそれを行い、それを解釈する必要があるように見えます。 –