2015-10-07 6 views
8

私が火花を使用してジョブを実行すると、私は次のログを取得しますか?スパークログのステージの平均は何ですか?

[Stage 0:> (0 + 32)/32]

ここ

32私が求めているRDDのパーティションの数に対応しています。複数のステージと、まさに各段階で発生があり、なぜ私は得ていないのですが

各ステージには、明らかに多くの時間を要します。少ない段階で完了することは可能ですか?

+0

は非常によくそれを説明し、このプレゼンテーションを見てみましょうhttps://spark-summit.org/2014/talk/a-deeper-understanding-of-spark-internals – ccheneson

答えて

4

スパークにおけるステージは、ローカル完了DAG計算のセグメントを表します。あなたはそれがスパークUIにその操作で指定された参照してくださいよ、なぜあるデータのシャッフルを、必要とする操作上のステージ休憩。あなたはスパーク1.4+を使用している場合は、あなたもDAGの視覚化のセクションでUIでこれを可視化することができます。分割は完全な実行を完了するためにシャッフルを必要とする、reduceByKeyで生じること

enter image description here

お知らせ。

関連する問題