私は多くの情報を持っていないので、私がこれを診断するためにできることを教えてください。HPC計算ノードでジョブが実行されていない
私のHPCにはいくつかの計算ノードがあり、昨夜提出したジョブの1つは、数時間の実行時間後に一時停止しました。私は今朝qstatを調べて、昨日チェックしてから進んでいないことが分かった。他のノードは正常に処理されているようです。
ジョブを削除して再送信しましたが、先行ジョブがスケジュールされていないにもかかわらず、キューにあるかのように表示されます。
gstatは、プロセスが並んでいないことを示していますが、ノードがアクティブであることを示しています。
のqstat -s「実行していません:実行するジョブを飢えできるようにする排水システム」を言う
を、それが役に立つなら、これはCentOSの6.5環境で設定されています。
この問題を診断するには他に何ができますか?