2016-12-12 21 views
2

私はデータベースに保存した約140,000,000レコードのデータセットを持っています。私は、Pythonを使用してこれらのデータの平均、最大、最小、標準偏差などの基本的な統計を計算する必要があります。Python:複数の統計ファイルの統計情報のまとめ

しかし、「IDの制限による%*%dオフセット%dからの選択*%」(チャンクサイズ、オフセット)のようなチャンクを使用すると、実行に1時間以上かかることがあります。参照してください。How to create a large pandas dataframe from an sql query without running out of memory?

私は、ほんのわずかのレコードを読み込み、pandas.describe()を使って得られた統計をcsvに保存することに決めました。同様に、データ全体については、統計だけを含む複数のCSVがあります。

これらのcsvをマージして、140,000,000のデータ全体の全体的な統計情報を取得する方法はありますか?

+2

これらのタスクにdbを直接使用することはできませんか? E.参照してください:https://blogs.msdn.microsoft.com/zainnab/2009/03/17/calculating-mean-median-and-mode-with-sql-server/ – fgoettel

+0

パンダにcsvsを開き、パンダを使用してみませんかデータを結合する.concat関数? http://pandas.pydata.org/pandas-docs/stable/merging.html – Joey

+0

@fgoettelリンク先を教えていただきありがとうございます。とても役に立ちました。 – Arun

答えて

0

異なるファイルで巨大なデータセットを分割する場合(平均値、最大値、最小値、SD値)は、必要なもの(平均値、最大値など)を計算することができます。結果だけを保持し、あなたの最初のファイルなどのアカウント結果を取って計算する(平均、最大など)...

関連する問題