2017-04-11 12 views
0

ソースコード用に4ノードクラスタにSGEを構築しました。 Centos7のオペレーティングシステム。そして、私はクラスタで単純なタスクを提出すると、1つのノードで1つのタスクしか実行されていないことがわかりました。どうしたの?ここに私のタスクコードは次のとおりです。sgeは1つのノードで1つのタスクしか実行できません

sleep 60 
echo "done" 

、これはタスクを提出する私のCMDです:qstatの-fを実行すると

DIR=`pwd` 
option="" 
for((i=0;i<5;i++));do 
    qsub -q multislots $option -V -cwd -o stdout -e stderr -S /bin/bash $DIR/test.sh 
    sleep 1 
done 

、それは示しています。ジョブに関するエラーメッセージが与えられenter image description here

+0

3つのノードで動作する3つのジョブが表示されます(誤っていない場合、node332のジョブ505、node335のジョブ506、および504のノード336のジョブ)。単一のノードで実行されている単一のタスク? –

+0

私はnode335に16のスロットがあり、job506には1つのみが使用されていて、キュー内で2つのジョブが待機していることを意味します。なぜ左の2つのジョブは実行されませんでしたか? – MUYOUHUIYAO

+0

ファイルdefault/spool/qmaster/messagesを見ると、次のようなエラーが表示されます。「ジョブ519.1がジョブの前に想定されていたためにnode332が失敗しました:未使用のadd_grp_idが見つかりません」 – MUYOUHUIYAO

答えて

0

「未使用のadd_grp_idを見つけることができません」のために失敗しました。 sge構成(グローバルでも、ホストごとに1つでもある場合も)でgid_rangeがどのように設定されているかを確認する必要があります。そうでなければ未使用のグループIDの範囲でなければなりません。少なくともノード上のジョブと同じくらい多くのgid。

それ以外の場合は、キューに登録されているジョブのいずれかでqalter -w vとqalter -w pを実行して、開始されていない理由を確認してください。

関連する問題