私はクラスタ上で送信されているジョブを追跡しようとしていますが、spark.eventLog.enabled = Trueを使用してイベントログのログソリューションを見つけました。フィニッシュ(詳細はhere)またはlog4jはタスクの状態と進行状況に関する情報も提供します。スパークジョブのログ
私が本当に望むのは、実行されているタスクを記録することです。これは、var = sc.range(1000)またはmin_var = var.min()のように実行されたコードをキャプチャします。私が見たものから、上で説明した他のロガーはこれを行うことができません。私は(VAR = sc.range(1000)とmin_var = var.min())上記の2つのコマンドを実行した場合の例として
、私はlog4j-に次のようなものを見たいと思いますロガーのように:
情報VAR = sc.range(1000)
INFO RUNNING min_var = var.min()
は、誰もがこのようなロガー間で走ったのを実行していますか?
yarn logs --applicationId <application-id>
をし、あなたのコードによって生成されたログを含む任意の完成したアプリケーションのためのログを取得:
あなたの質問が十分ではありません。あなたは内部のスパークではなくあなたのコードからログが来ることを意味しますか? – mauriciojost
私は自分のコードやSparkの内部からログを取得するのではなく、実行されたコードを記録したいと思っています。したがって、実際のコマンドrdd_name.filter(lambda x:x)を保持し、FilteredRDDではなく、すべてのコマンドの周りにコードロガーを記述する必要はありません。私はもう少し意味があることを願っています。 – flipper144
ログにコードを文書化したいのですか? – mauriciojost