sqoop export
によって作成されるログのサイズを制御する方法はありますか?一連のparquet
ファイルをhadoop
クラスタからmicrosoft sql server
にエクスポートしようとしていて、マッパージョブの特定のポイントの後に進行が非常に遅くなったり凍結したりすることがあります。 hadoop Resourcemanager
を見ている現在の理論は、sqoop
ジョブからのログがプロセスをフリーズさせるサイズまでいっぱいになっているということです。sqoopエクスポートのログサイズを減らす方法
hadoop
に新しくなり、助言をいただければ幸いです。ありがとう。
更新
リソースマネージャのWebインターフェイスからsqoopジャーアプリケーションのために凍結マップタスクの仕事の一つのsyslog出力を見てみると、ログ出力は次のようになります。
さらに2017-11-14 16:26:52,243 DEBUG [communication thread] org.apache.hadoop.yarn.util.ProcfsBasedProcessTree: [ 8758 8840 ]
2017-11-14 16:26:52,243 DEBUG [IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490] org.apache.hadoop.security.SaslRpcClient: reading next wrapped RPC packet
2017-11-14 16:26:52,243 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490 sending #280
2017-11-14 16:26:52,243 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.security.SaslRpcClient: wrapping token of length:751
2017-11-14 16:26:52,246 DEBUG [IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490] org.apache.hadoop.security.SaslRpcClient: unwrapping token of length:62
2017-11-14 16:26:52,246 DEBUG [IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490] org.apache.hadoop.ipc.Client: IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490 got value #280
2017-11-14 16:26:52,246 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: statusUpdate 3
2017-11-14 16:26:55,252 DEBUG [communication thread] org.apache.hadoop.yarn.util.ProcfsBasedProcessTree: [ 8758 8840 ]
2017-11-14 16:26:55,252 DEBUG [IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490] org.apache.hadoop.security.SaslRpcClient: reading next wrapped RPC packet
2017-11-14 16:26:55,252 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490 sending #281
2017-11-14 16:26:55,252 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.security.SaslRpcClient: wrapping token of length:751
2017-11-14 16:26:55,254 DEBUG [IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490] org.apache.hadoop.security.SaslRpcClient: unwrapping token of length:62
2017-11-14 16:26:55,255 DEBUG [IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490] org.apache.hadoop.ipc.Client: IPC Client (<ipc_client_num>) connection to /<myipaddress>:23716 from job_1502069985038_3490 got value #281
2017-11-14 16:26:55,255 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: statusUpdate 3
プロセスを1日中実行させると、sqoopジョブは実際に終了するようですが、非常に長い時間がかかります(〜500MBの.tsvデータの場合〜4時間)。投稿質問のタイトルに対応して
さらに詳しい情報が役に立ちます。ジョブ履歴サーバーのマッパージョブで何が起こっているのかが分かります。リモートサーバーに書き込むのを待っているジョブはありますか? – shainnif
@shainnifアドバイスをいただきありがとうございます。最新のポストレスポンスをご覧ください。 – lampShadesDrifter
これで、log4j.propertiesを探すことができます。これをlog4j.rootLogger = WARN、A1に変更すると、log4j.rootLogger = DEBUG、A1という行が表示されます。これにより、ログレベルが低下します。 – shainnif