3
spill to disk
とshuffle write
について混乱しています。既定の並べ替えシャッフルマネージャを使用して、appendOnlyMap
を使用してパーティションレコードを集約し、結合します。そして、実行メモリがいっぱいにするとき、我々はそれをディスクにこぼし、マップを並べ替え起動し、次の流出のためのマップを(発生した場合)、クリーンアップ、私の質問は以下のとおりです。ディスクに流し込んで書き込みスパークをシャッフル
ディスクへの流出の違いは何ですかシャッフル書き込み?基本的には、ローカルファイルシステム上にファイルを作成して記録します。
アドミットが異なるため、Spillレコードはマップを通過するのでソートされます。マップから渡されないため、書き込みレコードnoをシャッフルします。
- 私は、こぼれたファイルの合計サイズは、シャッフルの書き込みのサイズと同じでなければならないかもしれない、多分私は何かが不足している、その段階を理解するのを助けてください。
ありがとうございます。あなたのマシンには十分なRAMがない場合に使用され、そしてそれはの一部を配置 - ディスクをホストするためにホストのRAMからデータ移動 -
ジョルジオ