ヤーンエラーなしで1時間後にすべてのジョブを自動的に強制終了

私たちのヤーンは、正確に1時間後にすべての実行中のジョブを強制終了しています。 sparkまたはSqoopジョブ（mapreduce）であれば問題ありません。ヤーンエラーなしで1時間後にすべてのジョブを自動的に強制終了

潜在的な原因についての提案を探しています。

4ノードクラスタでHDP 2.5.x hadoopディストリビューションを使用しています。

は、これは私がsqoopジョブ

nohup sqoop-import -D mapred.task.timeout=0 --direct --connect jdbc:oracle:thin:@HOST:Port:DB --username USERNAME --password PASS --target-dir /prod/directory --table TABLE_NAME --verbose -m 25 --split-by TABLE_NAME.COLUMN --as-parquetfile --fields-terminated-by "\t" > temp.log 2>&1 &

それが言うすべてをされ実行しているかである糸アプリケーションログ

16/11/26 01:40:49 INFO mapreduce.Job: map 42% reduce 0% 
16/11/26 01:41:44 INFO mapreduce.Job: map 0% reduce 0% 
16/11/26 01:41:44 INFO mapreduce.Job: Job job_1480141487938_0001 failed with state KILLED due to: Application killed by user. 
16/11/26 01:41:44 INFO mapreduce.Job: Counters: 0 
16/11/26 01:41:44 WARN mapreduce.Counters: Group FileSystemCounters is deprecated. Use org.apache.hadoop.mapreduce.FileSystemCounter instead 
16/11/26 01:41:44 INFO mapreduce.ImportJobBase: Transferred 0 bytes in 3,628.6498 seconds (0 bytes/sec) 
16/11/26 01:41:44 WARN mapreduce.Counters: Group org.apache.hadoop.mapred.Task$Counter is deprecated. Use org.apache.hadoop.mapreduce.TaskCounter instead 
16/11/26 01:41:44 INFO mapreduce.ImportJobBase: Retrieved 0 records. 
16/11/26 01:41:44 DEBUG util.ClassLoaderStack: Restoring classloader: [email protected] 
16/11/26 01:41:44 ERROR tool.ImportTool: Error during import: Import job failed!

以下

yarn logs -applicationId application_1480141487938_0001|grep -B2 -A10 "ERROR " 
16/11/26 03:05:39 INFO impl.TimelineClientImpl: Timeline service address: http://HostName:8188/ws/v1/timeline/ 
16/11/26 03:05:39 INFO client.RMProxy: Connecting to ResourceManager at HostName/HostIp:8050 
16/11/26 03:05:39 INFO client.AHSProxy: Connecting to Application History server at HostName/HostIp:10200 
16/11/26 03:05:40 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library 
16/11/26 03:05:40 INFO compress.CodecPool: Got brand-new decompressor [.deflate] 
2016-11-26 00:41:33,284 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: getResources() for application_1480141487938_0001: ask=1 release= 2 newContainers=0 finishedContainers=2 resourcelimit=<memory:20480, vCores:1> knownNMs=4 
2016-11-26 00:41:33,285 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_e09_1480141487938_0001_01_000028 
2016-11-26 00:41:33,285 ERROR [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Container complete event for unknown container id container_e09_1480141487938_0001_01_000028 
2016-11-26 00:41:33,285 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_e09_1480141487938_0001_01_000029 
2016-11-26 00:41:33,285 ERROR [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Container complete event for unknown container id container_e09_1480141487938_0001_01_000029 
2016-11-26 00:41:33,686 INFO [Socket Reader #1 for port 41553] SecurityLogger.org.apache.hadoop.ipc.Server: Auth successful for job_1480141487938_0001 (auth:SIMPLE) 
2016-11-26 00:41:33,697 INFO [IPC Server handler 6 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: JVM with ID : jvm_1480141487938_0001_m_9895604650011 asked for a task 
2016-11-26 00:41:33,698 INFO [IPC Server handler 6 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: JVM with ID: jvm_1480141487938_0001_m_9895604650011 given task: attempt_1480141487938_0001_m_000024_0 
2016-11-26 00:41:37,542 INFO [IPC Server handler 19 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000000_0 is : 0.0 
2016-11-26 00:41:38,793 INFO [IPC Server handler 22 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000001_0 is : 0.0 
2016-11-26 00:41:38,811 INFO [IPC Server handler 23 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000006_0 is : 0.0 
2016-11-26 00:41:38,939 INFO [IPC Server handler 28 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000007_0 is : 0.0 
2016-11-26 00:41:40,568 INFO [IPC Server handler 22 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000000_0 is : 0.0 
2016-11-26 00:41:41,812 INFO [IPC Server handler 24 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000001_0 is : 0.0 
2016-11-26 00:41:41,832 INFO [IPC Server handler 25 on 41553] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1480141487938_0001_m_000006_0 is : 0.0

Rmの監査ログ

2016-11-26 01:41:43,359 INFO resourcemanager.RMAuditLogger: USER=yarn IP=HostIp OPERATION=Kill Application Request TARGET=ClientRMService RESULT=SUCCESS APPID=application_1480141487938_0001 CALLERCONTEXT=CLI

など

私は既にAmbariで見つけられるすべての値を3600からさらに大きな値に変更し、クラスタを再起動してスクリプトを再実行しました。 sqoopとsparkの両方の仕事のために、まだ正確に仕事は1時間後に殺されます。

編集：

yarn logs -show_application_log_info -applicationId application_1480141487938_0001

だから27に1からのみのコンテナIDを示し、ここで、iは、コンテナ28および29 /エラーログを見つけることができますか？

出典

2016-11-26 Abhishek Anand

この理由が見つかりましたか？ CDH 5.5クラスタで私たちに起こっています。 – morfious902002

私たちは最終的にiptablesを使いこなすことに疲れて、ゲートウェイノードを介してクラスタへの完全なアクセスを強化することにしました。これは何らかのプロトコルやポートを引き起こすネットワークに関係するものです。 –

Spark Batchジョブを強制終了していたのはLivy Serverのセッションタイムアウトでした。これは、次のリリースで修正される既知のバグです。 – morfious902002

私たちは決して完全に問題を特定することはできませんでしたが、それはネットワーク関連であったということだけでした。可能なすべてのパラメータを3600からmoreに増やしても、クライアント/ノード側で何らかの種類のハートビートが3600秒に設定され、更新されていないことが判明しました。

基本的に、ほぼ1時間後にハートビートは通信しようとしますが、失敗するとAMは完全な仕事を殺します。

hadoop、Hortonworks、Clouderaのドキュメントには、すべてのバージョンで有効/無効にする必要がある特定のポートとプロトコル仕様が実際には不足しているため、最終的にiptablesをオフにして解決する必要がありました。

出典

2016-12-29 17:11:36

ヤーンエラーなしで1時間後にすべてのジョブを自動的に強制終了

答えて

関連する問題