2017-12-28 9 views
0

1つのノードに問題があり、そのマシンで実行可能ファイルが失敗すると、キュー内のほとんどのジョブが失敗します。これは、最初のジョブがすぐに失敗したと宣言され、マシンが再び使用可能になり、すぐにもう一度失敗する別のジョブを実行するために起こります。キューは空になり、すべてのジョブが失敗するまで続けられます。計算ノードの実行中のジョブが失敗した場合、Microsoft HPCクラスタで計算ノードをオフラインにする方法はありますか?

他のノードが残りのジョブを処理できるように、問題のあるノードを分離するメカニズムはありますか。ノードに障害があると宣言するようなもの。 HPCはこれをサポートしていますか?

答えて

0

このホストに対してタスクが送信されないようにするには、除外ノードリストにホストを追加します。

これは、それがどのように動作するかです:

ジョブの所有者またはクラスタ管理者がジョブ 内のタスクが常に特定のノードで失敗していることに気づく場合、彼らは 除外ノードジョブプロパティに、そのノードを追加することができます。 [Excluded nodes limit]に達すると、 がリストにノードを追加しようとすると失敗します。詳細については、 see Set and Clear Excluded Nodes for Jobsを参照してください。

関連する問題