タスクまたはジョブの実行直後に、これらのメトリックをコンソール(SparkシェルまたはSparkサブミットジョブ)で収集する方法を教えてください。Spark UIから出力サイズやレコードなどのメトリックを取得する方法は?
私たちはMysqlからCassandraにデータをロードするためにSparkを使用していますが、これは非常に巨大です(例:〜200 GBおよび600M行)。タスクが完了したら、正確に処理を開始した行の数を確認したいのですか? Spark UIから数値を取得することはできますが、sparkシェルまたはspark-submitジョブからその数値(「Output Records Written」)をどのように取得できますか?
サンプルMysqlからCassandraにロードするコマンド。
val pt = sqlcontext.read.format("jdbc").option("url", "jdbc:mysql://...:3306/...").option("driver", "com.mysql.jdbc.Driver").option("dbtable", "payment_types").option("user", "hadoop").option("password", "...").load()
pt.save("org.apache.spark.sql.cassandra",SaveMode.Overwrite,options = Map("table" -> "payment_types", "keyspace" -> "test"))
上記のタスクのすべてのSpark UIメトリックを取得する必要があります。出力サイズと記録されたレコード。
助けてください。
ありがとうございました!