bigdataジョブのほとんどにはmapreduceジョブが1つしかないため、中間データをメモリに保存してHDFS上のレプリケーションを回避することで、スパークが発生します。マップリダクションは、マップリダクションジョブが1つしかない場合、sparkと同じパフォーマンスを提供しますか?
私の質問は、mapreduceジョブが1つだけの場合、wordcountと言います。 mapreduceジョブはsparkと同じパフォーマンスを提供しますか?そうでない場合、なぜですか?
これは一般的な質問かもしれませんが、私はスパークの深いアーキテクチャを理解しようとしています。