2017-04-06 9 views
0

私は多くの情報を持っていないので、私がこれを診断するためにできることを教えてください。HPC計算ノードでジョブが実行されていない

私のHPCにはいくつかの計算ノードがあり、昨夜提出したジョブの1つは、数時間の実行時間後に一時停止しました。私は今朝qstatを調べて、昨日チェックしてから進んでいないことが分かった。他のノードは正常に処理されているようです。

ジョブを削除して再送信しましたが、先行ジョブがスケジュールされていないにもかかわらず、キューにあるかのように表示されます。

gstatは、プロセスが並んでいないことを示していますが、ノードがアクティブであることを示しています。

のqstat -s「実行していません:実行するジョブを飢えできるようにする排水システム」を言う

を、それが役に立つなら、これはCentOSの6.5環境で設定されています。

この問題を診断するには他に何ができますか?

答えて

1

トルクスクリプトが24時間以上実行されていると、スケジューラも送信された他のすべてのジョブに一時停止が発生することが判明しました。私たちは責任ある仕事を殺す必要があり、すべてが元に戻りました。

関連する問題