2016-05-11 1 views
4

Mapreduceでは、マッパーによって生成された出力を中間データといいます。Mapreduceでは、複製も中間データに適用されますか?

中間データも複製されていますか?

中間データは一時的ですか?

中間データはいつ削除されますか?自動的に削除されますか、それとも明示的に削除する必要がありますか?

答えて

6

Mapperのスペルファイルは、Mapperが動作しているワーカーノードのローカルファイルシステムに格納されています。同様に、あるノードから別のノードにストリーミングされたデータは、そのタスクが実行されているワーカーノードのローカルファイルシステムに格納されます。

このローカルファイルシステムパスは、デフォルトで'/ tmp' のある hadoop.tmp.dir プロパティで指定されています。

ローカルファイルシステムで使用される一時的な場所が自動的にクリアされるので、クリーンアッププロセスを実行する必要はありません。フレームワークによって自動的に処理されます。

+0

単純な言葉では、中間データは複製されず、自動的に消去されます。それは正しい? –

+2

hdfsに入るものには、デフォルトの複製要素があります。この場合、データはローカルファイルシステムに存在します。したがって、複製されません。はい、自動的にクリアされます –

関連する問題