Dask groupby MemoryError：

私は1Bレコード以上の寄木細工のファイルを持っています。私は、次のステートメントでgroupbyを実行しようとしている：私は次のように構成されたclientで実行しているよDask groupby MemoryError：

dfg = df[['col1','col2','col3']].groupby(['col1','col2']]).count().compute()

。
client = distributed.Client(set_as_default=True)

私はMemoryError:

は、私は別のクライアント構成で実行されている必要があり得ますか？

私はコアをスタンドアロンのワークステーション上で実行しています：24、メモリ：123ギガバイトところで

- 終わりに私は新しいカラムとして元dfにcount背中を保存する必要があります。

提案がありますか？ Daskではなく、groupbyをデータベースで実行する必要がありますか？

出典

2017-07-18 Joseph Berry

あなたがやっている操作では、groupby(...).count()は少しのスペースで完了するはずです。

私が見る唯一の可能性は、あなたのパーティションが非常に大きいため、一度に24個のメモリを一度にメモリに格納することが問題になることです。

申し訳ありませんが、私はここでは役に立たないです。

出典

2017-07-18 13:20:38 MRocklin

小さいパーティションの寄木細工を再作成する必要がありますか？そうであれば、 'dask'はこれを行うオプションを持つことができます（' partition_on'パラメータは関係ありません）。 'client.distribution'の設定を支援できますか？ –

これがあなたの問題であるかどうかわかりません。それは盲目の推測です。 – MRocklin

レコードのために - 24コアと123 GBのメモリを持つシングルマシンでは、Daskで250億レコードの 'group by'を実行することができず、' SQL SERVER'に移動しなければなりませんでした。マシンには192GBのRAMがありますが、 'dask cluster 'はすべてのRAMを識別できませんでした。 –

答えて

関連する問題