documentation of the Dask package for dataframesは言う:Daskデータフレームは、メモリより大きいデータセットをどのように扱うのですか?
DASKのデータフレームを見て、パンダのデータフレームのように感じるが、複数のスレッドを使用してメモリよりも大きな データセット上で動作します。
しかし、その後同じページに:
一つDASKのデータフレームは、インデックスに沿って分離いくつかのインメモリパンダのデータフレーム で構成されています。
DASKは、ディスクsequentallyから異なるデータフレームのパーティションを読み込み、メモリに収まるように計算を実行していますか?必要なときにディスクにいくつかのパーティションをこぼしてしまいますか?一般的に、Daskはメモリを管理しています- >ディスクIOのデータの大規模なデータ分析を可能にするには?
10M MovieLensデータセットとラップトップ(8GB RAM)の基本的な計算(たとえば平均格付け)を交換しようとしました。
あなたのmovielensの問題で何が起こっているのかについてより詳細な質問が考えられます。 – MRocklin
明らかに、私のmovielensの問題は、sep '::'がPandasの正規表現として解釈されているために発生していました。それをsed-edにして ';'メインメモリに問題なくロードされます。 – dukebody