私はSparkアプリケーションを実行していて、Stagesの1つがFetchFailedExceptionで失敗しました。おおよそ同時に、次のようなログがリソースマネージャのログに表示されました。Resource Managerが「AMリリースコンテナ」操作の成功を報告できるのはいつですか?
<data> <time>,988 INFO org.apache.hadoop.yarn.server.resourcemanager.RMAudtiLogger: User=<user> OPERATION=AM Released Container TARGET=SchedulerApp RESULT=SUCCESS APPID=<appid> CONTAINERID=<containerid>
私のアプリケーションでは、それよりも多くの糸が割り当てられていましたが、数日間実行されていました。私は、他のアプリケーションが起動し、クラスタを使用したいと思って、Resource Managerが自分のコンテナの1つを強制終了して、他のアプリケーションにリソースを提供してしまうことが予想されます。
私の前提を確認したり、リソースマネージャから出力されるログメッセージを説明するドキュメントを教えてもらえますか?
編集: それは私が実行している糸のバージョンを助けている場合OPERATION=AM Released Container
について2.6.0-cdh5.4.9