シナリオはこの1つである、ステップ、私はsallocでジョブにressources(2つのノード、64 CPU)を割り当てる:リストジョブの保留が
salloc -N 1-2 -n 64 -c 1 -w cluster-node[2-3] -m cyclic -t 5
salloc: Granted job allocation 1720
その後、私は私の仕事へのステップを作成するためにsrun
を使用します。
for i in (seq 70)
srun --exclusive -N 1 -n 1 --jobid=1720 sleep 60 &
end
私は自分の仕事に利用可能なCPUより多くのステップを作成したので、ステップは空きCPUまで "保留中"です。
手順を一覧表示するのに-sオプションを使用してsqueue
を使用すると、実行中のもののみを表示できます。
squeue -s -O stepid:12,stepname:10,stepstate:9
1720.0 sleep RUNNING
[...]
1720.63 sleep RUNNING
私の質問は、ステップは仕事のようなを実行は異なる状態を持っているのであり、そうならば、のsqueue(または他のコマンド)を有するものを表示する方法はありますか?
本当にありがとうございました。実際の目的は、タスクの循環分散を使用してノードの負荷を分散する方法を見つけることでした。マニュアルの深いダイビングの後、私はついにLLDオプションを見つけました。平行したチップをありがとう、私はこのコマンドの大ファンです! – Beuss