1つのノードに問題があり、そのマシンで実行可能ファイルが失敗すると、キュー内のほとんどのジョブが失敗します。これは、最初のジョブがすぐに失敗したと宣言され、マシンが再び使用可能になり、すぐにもう一度失敗する別のジョブを実行するために起こります。キューは空になり、すべてのジョブが失敗するまで続けられます。計算ノードの実行中のジョブが失敗した場合、Microsoft HPCクラスタで計算ノードをオフラインにする方法はありますか?
他のノードが残りのジョブを処理できるように、問題のあるノードを分離するメカニズムはありますか。ノードに障害があると宣言するようなもの。 HPCはこれをサポートしていますか?