DATASET APIを使用してスパークジョブを作成しました。最終結果がHDFSで収集されるまで、一連の操作が実行されます。中間データセットの処理済メトリックを記録します
しかし、中間データセットごとに読み取られたレコードの数も知る必要があります。 5つの操作をデータセット(マップ、グループなど)に適用すると、5つの中間データセットごとにいくつのレコードがあるかを知る必要があります。データセットレベルでこれがどのように得られるのか誰にでも示唆することができます。私はタスクレベル(リスナーを使用して)でこれを見つけることができますが、データセットレベルで取得する方法はわかりません。
おかげ