私はHadoop mapreduceを使い慣れました。私はチュートリアルのいくつかを調べて、マッパーの出力がソートされていることに気付きましたが、レデューサー側では、シャッフル&ソートフェーズがあります。hadoop mapreduce 2種類
なぜ2つの種類がありますか?彼らの目的は何ですか?
ありがとうございます!
私はHadoop mapreduceを使い慣れました。私はチュートリアルのいくつかを調べて、マッパーの出力がソートされていることに気付きましたが、レデューサー側では、シャッフル&ソートフェーズがあります。hadoop mapreduce 2種類
なぜ2つの種類がありますか?彼らの目的は何ですか?
ありがとうございます!
Mapper:ソースからの入力データをキー値のペアに整理して処理します。
リデューサー:集積ロジックがここに書かれています。
Shufflerの役割はシャッフルとソートで、マッパーからレデューサーに出力を渡します。これはMRフレームワークによって内部的に行われます。しかし、MR ApiとJavaを使用して独自のカスタムシャッフルを実装できます。
はWORDCOUNTのこの例を参照して下さい:
http://kickstarthadoop.blogspot.in/2011/04/word-count-hadoop-map-reduce-example.htmlもこれを参照して下さい。 https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html
お返事ありがとうございます。減速機がキーと値のペアをソートしてより速くグループ化する間に、マッパーの出力をソートするとキーと値のペアが右のレデューサーに放出されるのでしょうか? – milodky