計算ノードの実行中のジョブが失敗した場合、Microsoft HPCクラスタで計算ノードをオフラインにする方法はありますか？

1つのノードに問題があり、そのマシンで実行可能ファイルが失敗すると、キュー内のほとんどのジョブが失敗します。これは、最初のジョブがすぐに失敗したと宣言され、マシンが再び使用可能になり、すぐにもう一度失敗する別のジョブを実行するために起こります。キューは空になり、すべてのジョブが失敗するまで続けられます。計算ノードの実行中のジョブが失敗した場合、Microsoft HPCクラスタで計算ノードをオフラインにする方法はありますか？

他のノードが残りのジョブを処理できるように、問題のあるノードを分離するメカニズムはありますか。ノードに障害があると宣言するようなもの。 HPCはこれをサポートしていますか？

出典

2017-12-28 Reza

このホストに対してタスクが送信されないようにするには、除外ノードリストにホストを追加します。

これは、それがどのように動作するかです：

ジョブの所有者またはクラスタ管理者がジョブ内のタスクが常に特定のノードで失敗していることに気づく場合、彼らは除外ノードジョブプロパティに、そのノードを追加することができます。 [Excluded nodes limit]に達すると、がリストにノードを追加しようとすると失敗します。詳細については、 see Set and Clear Excluded Nodes for Jobsを参照してください。

出典

2018-01-03 08:55:59 LuckyAshnar

計算ノードの実行中のジョブが失敗した場合、Microsoft HPCクラスタで計算ノードをオフラインにする方法はありますか？

答えて

関連する問題