2016-09-07 16 views
0

1つのスパークジョブが23日以上実行されていたため、リソースマネージャーがクラッシュしました。リソースマネージャの再起動後(クラスタに2つあります)、両方ともスタンバイ状態のままでした。リソースマネージャーがスタンバイ状態からアクティブ状態に遷移しない

そして、我々はこのエラーを取得しています

ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager Failed to load/recover state org.apache.hadoop.yarn.exceptions.YarnException: Application with id application_1470300000724_40101 is already present! Cannot add a duplicate!

リソース・マネージャが動作していないとして、私たちは、糸から「application_1470300000724_40101」を殺すことができませんでした。だから、すべてのノードでUnixレベルからすべてのインスタンスを殺しました。私たちはすべてのノードをリブートしようとしましたが、それと同じです。

そのジョブの1つのエントリがまだ存在し、リソースマネージャがアクティブとして選択されないようにします。私たちはcloudera 5.3.0を使用しています。この問題はcloudera 5.3.3で解決されて解決されています。しかし、現時点では、今のところ回避策が必要です。

yarn resourcemanager -format-state-store 

しかし、これは、このコマンドを実行する前に実行されたすべてのアプリケーションの履歴をクリアしますように注意してください:私たちは、以下のコマンドを実行してRMStateStoreをフォーマットすることができ、この問題を解決するには

答えて

関連する問題