2017-05-12 3 views
0

bigdataジョブのほとんどにはmapreduceジョブが1つしかないため、中間データをメモリに保存してHDFS上のレプリケーションを回避することで、スパークが発生します。マップリダクションは、マップリダクションジョブが1つしかない場合、sparkと同じパフォーマンスを提供しますか?

私の質問は、mapreduceジョブが1つだけの場合、wordcountと言います。 mapreduceジョブはsparkと同じパフォーマンスを提供しますか?そうでない場合、なぜですか?

これは一般的な質問かもしれませんが、私はスパークの深いアーキテクチャを理解しようとしています。

答えて

1

this紙によると、Sparkはwordcountのmapreduceよりも2.5倍高速です。彼らは、Wordは、地図出力選択性が著しくマップ側コンバイナを用いて還元 することができる と同様のワークロードを、カウントするためのステージを低減

、ハッシュにマップステージからのデータのより効率的なルーティングに差属性ベースの集約 のスパークは、 MapReduceのソートベースの集計よりも効率的です。実行時間のブレークダウン結果は、ハッシュベースのフレームワークである が、Sparkの全体の約39%に寄与していることを示しています。

関連する問題