2016-09-18 14 views
6

の並べ替え私は私の質問は正確にシャッフルして起こるのソートんシャッフルとMapReduceの

で1 here

含め決定的なガイドとウェブ上でいくつかの他のリンクを読んで?

私の理解によれば、マッパーとレデューサーの両方で発生します。しかし、いくつかのリンクでは、マッパでシャッフルが起こり、レデューサーでソートされることが言及されています。

私の理解が正しいかどうかを誰かが確認できます。そうでない場合は、私は通過できる追加の文書を提供できますか?

答えて

5

シャッフル:

MapReduceは、すべての減速への入力はキーでソートされていることを保証します。システムがソートを実行するプロセスとtransfers map outputs to the reducers as inputsは、シャッフルとして知られています。

並べ替え:

ソートはMapReduceのプログラムの様々な段階で行われ、そこで、地図に存在し、段階を減らすことができます。

地図で上記の画像に多くの記述を追加する。この図で enter image description here

を見ていると位相を削減してください。

地図サイド:マップ機能は、出力を生成開始すると

、それは単純にディスクに書き込まれていません。マップの出力がディスクに書き込まれる前に、最初にスレッドが最終的に送られるのはdivides the data into partitions corresponding to the reducersです。各パーティション内で、background thread performs an in-memory sort by key

削減サイド:すべてのマップの出力がコピーされたら

は、ソートが地図上で行ったとしてタスクは、適切にマージ・フェーズと呼ばれるべきソート相(に移動減らしますマップ出力をマージし、ソート順序を維持します。これはラウンドで行われます。

出典:Hadoop Definitive Guide。

+0

私のオリジナルの質問に戻れば、シャッフルとソートの両方がマッパーとレデューサーに起こりますか? – red

+0

はい!シャッフルとソートは、さまざまなシナリオでマッパーとレデューサーの両方で発生します。 – mrsrinivas

関連する問題