2017-02-23 19 views
1

私のハープクラスターに何か問題があります。 私はそのパフォーマンスをチェックし、mapreduceがうまくいくかどうかを見るためにいくつかのベンチマークを試みましたが、私はいくつかの奇妙なビハイモアを得ました。 事実は、MapReduceのが始まりとそのマッピング・フェーズを処理するが、私はそれからいくつかのエラーを得ているということです。 私が最初にデータを作成するためのteragenを使用:hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 500 random-data 

その後、ジョブの開始を、私は、プロセスを停止せずに何らかの障害を持って:

17/02/23午前12時29分27秒INFO client.RMProxy:/172.16.138.145:8032

17/02/23十二時29分28秒INFO terasort.TeraSortでのResourceManagerへの接続:2を使用して500を生成する

17/02/23 12時29分28秒INFO mapreduce.JobSubmitter:ジョブのサブミットトークン:2

17/02/23 12時29分28秒INFOのmapreduce.JobSubmitter:分割数job_1487846108320_0007

17/02/23 12時29分28秒INFO impl.YarnClientImpl:提出されたアプリケーションapplication_1487846108320_0007

17/02/23 12時29分28秒INFOのmapreduce.Job:仕事を追跡するためのURL:http://172.16.138.145:8088/proxy/application_1487846108320_0007/

17/02/23 12:29:28 INFO mapreduce.Job:ランニングジョブ:job_1487846108320_0007

17/02/23 12時29分34秒INFO mapreduce.Job:ユーバーモードで実行中のジョブjob_1487846108320_0007:偽

17/02/23 12時29分34秒INFOのmapreduce.Job:0%減らすマップタスクID: attempt_1487846108320_0007_m_000001_0、ステータス:

17/02/23 12時29分48秒INFOのmapreduce.JobをFAILED:INFOのmapreduce.Jobが

17/02/23午前12時29分47秒0%

タスクID:試行_1487846108320_0007_m_000000_0、ステータス:FAILED

17/02/23 12: 30:02 INFOのmapreduce.Job:タスクID:attempt_1487846108320_0007_m_000001_1、ステータス:

17/02/23に失敗したマップ50%が0%

17/02/23 12時30分02秒INFOのmapreduce.Jobを減らします12時30分03秒INFOのmapreduce.Job:タスクID:attempt_1487846108320_0007_m_000000_1、ステータス:マップ0%0%

17/02/23 12時30分03秒INFOのmapreduce.Jobを減らす

17/02に失敗しました/ 23 12:30:15情報mapreduce.Job:タスクID:試み_1487846108320_0007_m_000001_2、ステータス:FAILED

17/02/23午前12時30分16秒INFOのmapreduce.Job:タスクID:attempt_1487846108320_0007_m_000000_2、ステータス:FAILED

17/02/23午前12時30分30秒INFOのmapreduce.Job:マップ100%、0%を削減

17/02/23 12:30:31 INFO mapreduce。ジョブ:ジョブjob_1487846108320_0007が失敗したため、状態FAILEDで失敗しました。タスク失敗task_1487846108320_0007_m_000001

タスクが失敗したためジョブが失敗しました。 failedMaps:1 failedReduces:0

Iは、当該データノードにログをチェックし、各故障を繰り返し、次の行が見つかりました:

2017年2月23日11:36:12901 INFO [AsyncDispatcherイベントハンドラ] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:TaskAttempt移行attempt_1487846108320_0001_m_000001_1からRUNNINGにFAIL_CONTAINER_CLEANUP

2017年2月23日11:36:12,901 INFO [AsyncDispatcherイベントハンドラ] ORG .apache.hadoop.mapreduce.v2.app.job。 impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1からの診断レポート:

2017年2月23日11:36:12902 INFO [ContainerLauncher#5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:イベントイベントタイプの処理: 36:12903 INFO [ContainerLauncher#5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:

2017- attempt_1487846108320_0001_m_000001_1 KILLING容器container_1487846108320_0001_01_000004 taskAttempt attempt_1487846108320_0001_m_000001_1

2017年2月23日11用CONTAINER_REMOTE_CLEANUP 02-23 11:36:12,903 INFO [ContainerLauncher#5] org.apache.hadoop.yarn.client.api.impl.ContainerManag ementProtocolProxy:オープニングプロキシ:Datanode3:34121

2017年2月23日11:36:12923 INFO [AsyncDispatcherイベントハンドラ] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:TaskAttempt移行attempt_1487846108320_0001_m_000001_1から36:12924 INFO [CommitterEventプロセッサ#2] org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler:イベントのイベントタイプを処理:TASK_ABORT

2017年2月23日11 FAIL_TASK_CLEANUPするFAIL_CONTAINER_CLEANUP

2017-02-23 11:36:12,932 WARN [CommitterEvent Processor#2] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:Co //172.16.138.145:9000 /ユーザ/ HDFS /ランダムdataSmallV7.7/_temporary/1/_temporary/attempt_1487846108320_0001_m_000001_1

2017年2月23日11:36:12932 INFO [AsyncDispatcherイベントハンドラ] ULD HDFSを削除しませんorg.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:FAIL_TASK_CLEANUPからこの場合はFAILED

にTaskAttempt移行attempt_1487846108320_0001_m_000001_1、ジョブが失敗しましたが、いつか、私はエラーを取得するが、ジョブは意志成功する。 (まれに) このFAIL_CONTAINER_CLEANUPの原因が分かっていますか?または、この問題の潜在的な原因ですか? ここではマッパーのみを使用していますが、リデューサーは要求されませんが、リデューサーが他のケースに関係している場合は、エラーも発生します。

あなたのアイデアをお寄せいただきありがとうございます。

答えて

0

私はついにそれを解決しました。 /etc/hostsファイルが私のノードを参照しています: 127.0.1。私のサーバーのための参照を見つけて、このエラーを修正するために 172.16.138.147 Datanode1

この許可のHadoop:1 Datanode1

は、私は私のマシンのFQDNことで、この行を置き換えます。

他の人に役立つことを願っています。

関連する問題