私は(SparkListenerなどから派生した)CustomListenerを書いていますが、それはうまく動作し、指標を傍受することができます。 質問は、リスナー自体の中でDataFramesを使用することです。これは、同じSpark Contextの使用を前提としていますが、2.1.xではJVMあたり1つのコンテキストしか使用しないためです。SparkListenerでDataFramesを使用するには?
jsonでいくつかのメトリックをディスクに書きたいとします。 ApplicationEndで行うことはできません。最後のjobEnd(複数のジョブがある場合は、最後のjobEnd)でのみ行います。
- 可能ですか実現可能ですか?
- 私はジョブ/ステージ/タスクのパフォーマンスを測定し、それを記録してからプログラムで分析しようとしています。それは最善の方法ではないかもしれませんか? Web UIは良いですが、私は物事を見えるようにする必要があります。
- endJobイベントでデータフレームの作成を強制できますが、いくつかのエラーがスローされます(基本的にはリスナーにイベントを伝えることはできません)私は不必要な操作を避けたいと思います。私は私が記録し、遅いSparkListenerがイベントを受け取るために他の人をブロックするよう