私はデータベースに保存した約140,000,000レコードのデータセットを持っています。私は、Pythonを使用してこれらのデータの平均、最大、最小、標準偏差などの基本的な統計を計算する必要があります。Python:複数の統計ファイルの統計情報のまとめ
しかし、「IDの制限による%*%dオフセット%dからの選択*%」(チャンクサイズ、オフセット)のようなチャンクを使用すると、実行に1時間以上かかることがあります。参照してください。How to create a large pandas dataframe from an sql query without running out of memory?
私は、ほんのわずかのレコードを読み込み、pandas.describe()を使って得られた統計をcsvに保存することに決めました。同様に、データ全体については、統計だけを含む複数のCSVがあります。
これらのcsvをマージして、140,000,000のデータ全体の全体的な統計情報を取得する方法はありますか?
これらのタスクにdbを直接使用することはできませんか? E.参照してください:https://blogs.msdn.microsoft.com/zainnab/2009/03/17/calculating-mean-median-and-mode-with-sql-server/ – fgoettel
パンダにcsvsを開き、パンダを使用してみませんかデータを結合する.concat関数? http://pandas.pydata.org/pandas-docs/stable/merging.html – Joey
@fgoettelリンク先を教えていただきありがとうございます。とても役に立ちました。 – Arun