2016-04-03 15 views
0

私はHadoop mapreduceを使い慣れました。私はチュートリアルのいくつかを調べて、マッパーの出力がソートされていることに気付きましたが、レデューサー側では、シャッフル&ソートフェーズがあります。hadoop mapreduce 2種類

なぜ2つの種類がありますか?彼らの目的は何ですか?

ありがとうございます!

答えて

0

Mapper:ソースからの入力データをキー値のペアに整理して処理します。

リデューサー:集積ロジックがここに書かれています。

Shufflerの役割はシャッフルとソートで、マッパーからレデューサーに出力を渡します。これはMRフレームワークによって内部的に行われます。しかし、MR ApiとJavaを使用して独自のカスタムシャッフルを実装できます。

はWORDCOUNTのこの例を参照して下さい:

http://kickstarthadoop.blogspot.in/2011/04/word-count-hadoop-map-reduce-example.htmlもこれを参照して下さい。 https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

+0

お返事ありがとうございます。減速機がキーと値のペアをソートしてより速くグループ化する間に、マッパーの出力をソートするとキーと値のペアが右のレデューサーに放出されるのでしょうか? – milodky