マップリダクションは、マップリダクションジョブが1つしかない場合、sparkと同じパフォーマンスを提供しますか？

bigdataジョブのほとんどにはmapreduceジョブが1つしかないため、中間データをメモリに保存してHDFS上のレプリケーションを回避することで、スパークが発生します。マップリダクションは、マップリダクションジョブが1つしかない場合、sparkと同じパフォーマンスを提供しますか？

私の質問は、mapreduceジョブが1つだけの場合、wordcountと言います。 mapreduceジョブはsparkと同じパフォーマンスを提供しますか？そうでない場合、なぜですか？

これは一般的な質問かもしれませんが、私はスパークの深いアーキテクチャを理解しようとしています。

this紙によると、Sparkはwordcountのmapreduceよりも2.5倍高速です。彼らは、Wordは、地図出力選択性が著しくマップ側コンバイナを用いて還元することができると同様のワークロードを、カウントするためのステージを低減

、ハッシュにマップステージからのデータのより効率的なルーティングに差属性ベースの集約のスパークは、 MapReduceのソートベースの集計よりも効率的です。実行時間のブレークダウン結果は、ハッシュベースのフレームワークであるが、Sparkの全体の約39％に寄与していることを示しています。

2017-05-12 16:17:15 David

答えて