Python：複数の統計ファイルの統計情報のまとめ

私はデータベースに保存した約140,000,000レコードのデータセットを持っています。私は、Pythonを使用してこれらのデータの平均、最大、最小、標準偏差などの基本的な統計を計算する必要があります。Python：複数の統計ファイルの統計情報のまとめ

しかし、「IDの制限による％*％dオフセット％dからの選択*％」（チャンクサイズ、オフセット）のようなチャンクを使用すると、実行に1時間以上かかることがあります。参照してください。How to create a large pandas dataframe from an sql query without running out of memory?

私は、ほんのわずかのレコードを読み込み、pandas.describe（）を使って得られた統計をcsvに保存することに決めました。同様に、データ全体については、統計だけを含む複数のCSVがあります。

これらのcsvをマージして、140,000,000のデータ全体の全体的な統計情報を取得する方法はありますか？

出典

2016-12-12 Arun

これらのタスクにdbを直接使用することはできませんか？ E.参照してください：https://blogs.msdn.microsoft.com/zainnab/2009/03/17/calculating-mean-median-and-mode-with-sql-server/ – fgoettel

パンダにcsvsを開き、パンダを使用してみませんかデータを結合する.concat関数？ http://pandas.pydata.org/pandas-docs/stable/merging.html – Joey

@fgoettelリンク先を教えていただきありがとうございます。とても役に立ちました。 – Arun

異なるファイルで巨大なデータセットを分割する場合（平均値、最大値、最小値、SD値）は、必要なもの（平均値、最大値など）を計算することができます。結果だけを保持し、あなたの最初のファイルなどのアカウント結果を取って計算する（平均、最大など）...

出典

2016-12-12 14:31:08 Dadep

Python：複数の統計ファイルの統計情報のまとめ

答えて

関連する問題