1つのスパークジョブが23日以上実行されていたため、リソースマネージャーがクラッシュしました。リソースマネージャの再起動後(クラスタに2つあります)、両方ともスタンバイ状態のままでした。リソースマネージャーがスタンバイ状態からアクティブ状態に遷移しない
そして、我々はこのエラーを取得しています
ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager Failed to load/recover state org.apache.hadoop.yarn.exceptions.YarnException: Application with id application_1470300000724_40101 is already present! Cannot add a duplicate!
リソース・マネージャが動作していないとして、私たちは、糸から「application_1470300000724_40101」を殺すことができませんでした。だから、すべてのノードでUnixレベルからすべてのインスタンスを殺しました。私たちはすべてのノードをリブートしようとしましたが、それと同じです。
そのジョブの1つのエントリがまだ存在し、リソースマネージャがアクティブとして選択されないようにします。私たちはcloudera 5.3.0を使用しています。この問題はcloudera 5.3.3で解決されて解決されています。しかし、現時点では、今のところ回避策が必要です。
yarn resourcemanager -format-state-store
しかし、これは、このコマンドを実行する前に実行されたすべてのアプリケーションの履歴をクリアしますように注意してください:私たちは、以下のコマンドを実行してRMStateStoreをフォーマットすることができ、この問題を解決するには