私はDatabricks Community Editionを使用しています。Sparkアプリケーションはいつ複数のジョブとステージを作成できますか?
My Sparkプログラムが複数のジョブを作成します。どうして?私は1つの仕事があるべきと思って、それは複数の段階を持つことができます。
私の理解は、スパークプログラムが提出されると、1つのジョブ、複数のステージ(通常、シャッフル操作ごとに新しいステージ)を作成します。 以下は、2つのシャッフル操作(reduceByKey/SortByKey)と1つのアクション(Take(5))がある場合に使用されるコードです。
rdd1 = sc.textFile('/databricks-datasets/flights')
rdd2 = rdd1.flatMap(lambda x: x.split(",")).map(lambda x: (x,1)).reduceByKey(lambda x,y:x+y,8).sortByKey(ascending=False).take(5)
つ以上の観察、ジョブは、新しいジョブの作成を引き起こしているものを、(それらのいくつかはスキップされ)新たなステージを持っているようです。
それはあなたが非常に多くのスパークジョブを参照してくださいpysparkだから? –