リソースマネージャーがスタンバイ状態からアクティブ状態に遷移しない

1つのスパークジョブが23日以上実行されていたため、リソースマネージャーがクラッシュしました。リソースマネージャの再起動後（クラスタに2つあります）、両方ともスタンバイ状態のままでした。リソースマネージャーがスタンバイ状態からアクティブ状態に遷移しない

そして、我々はこのエラーを取得しています

ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager Failed to load/recover state org.apache.hadoop.yarn.exceptions.YarnException: Application with id application_1470300000724_40101 is already present! Cannot add a duplicate!

リソース・マネージャが動作していないとして、私たちは、糸から「application_1470300000724_40101」を殺すことができませんでした。だから、すべてのノードでUnixレベルからすべてのインスタンスを殺しました。私たちはすべてのノードをリブートしようとしましたが、それと同じです。

そのジョブの1つのエントリがまだ存在し、リソースマネージャがアクティブとして選択されないようにします。私たちはcloudera 5.3.0を使用しています。この問題はcloudera 5.3.3で解決されて解決されています。しかし、現時点では、今のところ回避策が必要です。

yarn resourcemanager -format-state-store

しかし、これは、このコマンドを実行する前に実行されたすべてのアプリケーションの履歴をクリアしますように注意してください：私たちは、以下のコマンドを実行してRMStateStoreをフォーマットすることができ、この問題を解決するには

出典

2016-09-07 Mrinal

。

出典

2016-11-17 17:45:13 Mrinal

リソースマネージャーがスタンバイ状態からアクティブ状態に遷移しない

答えて

関連する問題