の並べ替え私は私の質問は正確にシャッフルして起こるのソートんシャッフルとMapReduceの
で1 here
含め決定的なガイドとウェブ上でいくつかの他のリンクを読んで?
私の理解によれば、マッパーとレデューサーの両方で発生します。しかし、いくつかのリンクでは、マッパでシャッフルが起こり、レデューサーでソートされることが言及されています。
私の理解が正しいかどうかを誰かが確認できます。そうでない場合は、私は通過できる追加の文書を提供できますか?
の並べ替え私は私の質問は正確にシャッフルして起こるのソートんシャッフルとMapReduceの
で1 here
含め決定的なガイドとウェブ上でいくつかの他のリンクを読んで?
私の理解によれば、マッパーとレデューサーの両方で発生します。しかし、いくつかのリンクでは、マッパでシャッフルが起こり、レデューサーでソートされることが言及されています。
私の理解が正しいかどうかを誰かが確認できます。そうでない場合は、私は通過できる追加の文書を提供できますか?
シャッフル:
MapReduceは、すべての減速への入力はキーでソートされていることを保証します。システムがソートを実行するプロセスとtransfers map outputs to the reducers as inputs
は、シャッフルとして知られています。
並べ替え:
ソートはMapReduceのプログラムの様々な段階で行われ、そこで、地図に存在し、段階を減らすことができます。
地図で上記の画像に多くの記述を追加する。この図で
を見ていると位相を削減してください。
地図サイド:マップ機能は、出力を生成開始すると
、それは単純にディスクに書き込まれていません。マップの出力がディスクに書き込まれる前に、最初にスレッドが最終的に送られるのはdivides the data into partitions corresponding to the reducers
です。各パーティション内で、background thread performs an in-memory sort by key
。
削減サイド:すべてのマップの出力がコピーされたら
は、ソートが地図上で行ったとしてタスクは、適切にマージ・フェーズと呼ばれるべきソート相(に移動減らしますマップ出力をマージし、ソート順序を維持します。これはラウンドで行われます。
出典:Hadoop Definitive Guide。
私のオリジナルの質問に戻れば、シャッフルとソートの両方がマッパーとレデューサーに起こりますか? – red
はい!シャッフルとソートは、さまざまなシナリオでマッパーとレデューサーの両方で発生します。 – mrsrinivas