を示していますSparkジョブのさまざまな段階でCPU /コア/エグゼキュータを最適化するにはどうすればよいですか?絵下記のよう
マイスパーク仕事は三つの段階があります。
0. groupBy
1. repartition
2. collect
ステージ0および1は、しかし、ステージ2は非常にCPU集中型で、かなり軽量です。
1つのSparkジョブの異なるステージに異なる構成を設定することはできますか?私は考えた
は、2つのサブものにこのスパークジョブを分離し、それはメモリに格納された全ての中間結果を有するスパークを使用する目的を破ります。そしてそれはまた、私たちの仕事の時間を大幅に延ばすでしょう。
どのようなアイデアをお願いしますか?