2016-08-05 12 views
0

mem属性のジョブをサブミットできませんでした。私は初心者で、2日後にはGoogleから助けを求めます。どんな提案も感謝しています!続きSGEがジョブのサブミットに失敗しました。属性はメモリ値ではありません。

は、私が行っていたものです:

\ 1。スクリプトを提出してください:

qsub -S /bin/bash -A assembly -pe threads 16 -l mem=2GB -cwd -N "pBcR_correct_asm" -j y -o /dev/null runCorrection.sh 

Unable to run job: unknown resource "mem". 
Exiting. 

\ 2 SGE unknown resource "nodes"に従って問題を解決する "h"を "host"に置き換えたことを考慮して、 "m"を "mem"に置き換えても機能しませんでした。 "h" は "は/ opt/gridengine/utilに/リソース/ CENTRY/ ホスト名" で定義されたショートカットで、 "qconfの-sc" で確認することができます。

qconf -sc 

#name    shortcut type  relop requestable consumable default urgency 
#---------------------------------------------------------------------------------------- 
arch    a   RESTRING == YES   NO   NONE  0 
calendar   c   RESTRING == YES   NO   NONE  0 
cpu     cpu  DOUBLE  >= YES   NO   0  0 
display_win_gui  dwg  BOOL  == YES   NO   0  0 
h_core    h_core  MEMORY  <= YES   NO   0  0 
h_cpu    h_cpu  TIME  <= YES   NO   0:0:0 0 
h_data    h_data  MEMORY  <= YES   NO   0  0 
h_fsize    h_fsize MEMORY  <= YES   NO   0  0 
h_rss    h_rss  MEMORY  <= YES   NO   0  0 
h_rt    h_rt  TIME  <= YES   NO   0:0:0 0 
h_stack    h_stack MEMORY  <= YES   NO   0  0 
h_vmem    h_vmem  MEMORY  <= YES   NO   0  0 
hostname   h   HOST  == YES   NO   NONE  0 
load_avg   la   DOUBLE  >= NO   NO   0  0 
load_long   ll   DOUBLE  >= NO   NO   0  0 
load_medium   lm   DOUBLE  >= NO   NO   0  0 
load_short   ls   DOUBLE  >= NO   NO   0  0 
m_core    core  INT   <= YES   NO   0  0 
m_socket   socket  INT   <= YES   NO   0  0 
m_topology   topo  RESTRING == YES   NO   NONE  0 
m_topology_inuse utopo  RESTRING == YES   NO   NONE  0 
mem_free   mf   MEMORY  <= YES   NO   0  0 
mem_total   mt   MEMORY  <= YES   NO   0  0 
mem_used   mu   MEMORY  >= YES   NO   0  0 

\ 4私は、このように置き換えます。上記の出力によると、mem_totalは以前に働いていた "hostname"とほとんど同じように思えましたが、SGSガイドを経てjsvが問題になるかもしれないと思いますが、 "ジョブを実行できません:属性......"というスクリプトは見つかりませんでしたこれは "/ opt/gridengine/util/resources/jsv"のディレクターの下にあります。私はいくつかのファイルを設定する必要があると思いますが、これらのファイルは何ですか、そして私は何をすべきですか?

qsub -S /bin/bash -A assembly -pe threads 16 -l mt=2GB -cwd -N "pBcR_correct_asm" -j y -o test.out runCorrection.sh 

Unable to run job: attribute "mem_total" is not a memory value. 
Exiting. 

答えて

0

h_vmemと思われるものがあります。少なくともそれは私がジョブの要求をしたいメモリを指定するために常に使用する属性です。

参照:

http://gridscheduler.sourceforge.net/htmlman/htmlman5/queue_conf.html?pathrev=V62u5_TAG

具体的には、

 The resource limit parameters s_vmem and h_vmem are imple- 
    mented by Sun Grid Engine as a job limit. They impose a 
    limit on the amount of combined virtual memory consumed by 
    all the processes in the job. If h_vmem is exceeded by a job 
    running in the queue, it is aborted via a SIGKILL signal 
    (see kill(1)). If s_vmem is exceeded, the job is sent a 
    SIGXCPU signal which can be caught by the job. If you wish 
    to allow a job to be "warned" so it can exit gracefully 
    before it is killed then you should set the s_vmem limit to 
    a lower value than h_vmem. For parallel processes, the 
    limit is applied per slot which means that the limit is mul- 
    tiplied by the number of slots being used by the job before 
    being applied. 

はまた、あなたがqconfを使用して、消耗品としてこれを設定する必要があるかもしれません。

1

@Vince!

ご返信ありがとうございます。

最後に私は "h_vmem = 2g"( "2GB"はエラーが出ます)を使用して問題を解決しますが、複雑な(MEMORY)の値をどのように設計するかはわかりません。

以下の情報は今必要ではありません。

あなたが与えたウェブサイトを読んで、コンプレックス内のh_vmemとs_vmemeの属性を "消耗品"に設定しましたが、動作しませんでした。私は、現時点では "NONE"であるキューの "complex_value"を設定しなければならないと思います。しかし、設定方法を教えてくれるウェブhttp://gridscheduler.sourceforge.net/htmlman/htmlman5/sge_types.html?pathrev=V62u5_TAGを開くことができません。キューを設定するように設定するのは正しいですか?ホストも設定する必要がありますか?

ご迷惑をおかけして申し訳ありません。

私は何をしたのですか:

\ 1。 h_vmemおよびs_vmemの消耗品の属性を「YES」に変更します。

qconf -sc 

#name    shortcut type  relop requestable consumable default urgency 
#---------------------------------------------------------------------------------------- 
arch    a   RESTRING == YES   NO   NONE  0 
calendar   c   RESTRING == YES   NO   NONE  0 
cpu     cpu  DOUBLE  >= YES   NO   0  0 
display_win_gui  dwg  BOOL  == YES   NO   0  0 
h_core    h_core  MEMORY  <= YES   NO   0  0 
h_cpu    h_cpu  TIME  <= YES   NO   0:0:0 0 
h_data    h_data  MEMORY  <= YES   NO   0  0 
h_fsize    h_fsize MEMORY  <= YES   NO   0  0 
h_rss    h_rss  MEMORY  <= YES   NO   0  0 
h_rt    h_rt  TIME  <= YES   NO   0:0:0 0 
h_stack    h_stack MEMORY  <= YES   NO   0  0 
h_vmem    h_vmem  MEMORY  <= YES   YES  0  0 
hostname   h   HOST  == YES   NO   NONE  0 
load_avg   la   DOUBLE  >= NO   NO   0  0 
load_long   ll   DOUBLE  >= NO   NO   0  0 
load_medium   lm   DOUBLE  >= NO   NO   0  0 
load_short   ls   DOUBLE  >= NO   NO   0  0 
m_core    core  INT   <= YES   NO   0  0 
m_socket   socket  INT   <= YES   NO   0  0 
m_topology   topo  RESTRING == YES   NO   NONE  0 
m_topology_inuse utopo  RESTRING == YES   NO   NONE  0 
mem_free   mf   MEMORY  <= YES   NO   0  0 
mem_total   mt   MEMORY  <= YES   NO   0  0 
mem_used   mu   MEMORY  >= YES   NO   0  0 
min_cpu_interval mci  TIME  <= NO   NO   0:0:0 0 
np_load_avg   nla  DOUBLE  >= NO   NO   0  0 
np_load_long  nll  DOUBLE  >= NO   NO   0  0 
np_load_medium  nlm  DOUBLE  >= NO   NO   0  0 
np_load_short  nls  DOUBLE  >= NO   NO   0  0 
num_proc   p   INT   == YES   NO   0  0 
qname    q   RESTRING == YES   NO   NONE  0 
rerun    re   BOOL  == NO   NO   0  0 
s_core    s_core  MEMORY  <= YES   NO   0  0 
s_cpu    s_cpu  TIME  <= YES   NO   0:0:0 0 
s_data    s_data  MEMORY  <= YES   NO   0  0 
s_fsize    s_fsize MEMORY  <= YES   NO   0  0 
s_rss    s_rss  MEMORY  <= YES   NO   0  0 
s_rt    s_rt  TIME  <= YES   NO   0:0:0 0 
s_stack    s_stack MEMORY  <= YES   NO   0  0 
s_vmem    s_vmem  MEMORY  <= YES   YES  0  0 
seq_no    seq  INT   == NO   NO   0  0 
slots    s   INT   <= YES   YES  1  1000 
swap_free   sf   MEMORY  <= YES   NO   0  0 
swap_rate   sr   MEMORY  >= YES   NO   0  0 
swap_rsvd   srsv  MEMORY  >= YES   NO   0  0 
swap_total   st   MEMORY  <= YES   NO   0  0 
swap_used   su   MEMORY  >= YES   NO   0  0 
tmpdir    tmp  RESTRING == NO   NO   NONE  0 
virtual_free  vf   MEMORY  <= YES   NO   0  0 
virtual_total  vt   MEMORY  <= YES   NO   0  0 
virtual_used  vu   MEMORY  >= YES   NO   0  0 
# >#< starts a comment but comments are not saved across edits -------- 

\ 2私の仕事をsmpの待ち行列に提出する。qであり、同じ問題を訴えた。

qsub -S /bin/bash -A assembly -q smp.q -pe newPe 16 -l h_vmem=2GB -cwd -N "pBcR_correct_asm" -j y -o runCorrection.sh 

Unable to run job: attribute "h_vmem" is not a memory value. 
Exiting. 

3。 smp.qの情報私は "complex_values"を変更する必要があり、 "h_vmem"は変更しないでください:

qconf -sq smp.q 

qname     smp.q 
hostlist    @smp.q 
seq_no    0 
load_thresholds  np_load_avg=1.75 
suspend_thresholds NONE 
nsuspend    1 
suspend_interval  00:05:00 
priority    0 
min_cpu_interval  00:05:00 
processors   UNDEFINED 
qtype     BATCH INTERACTIVE 
ckpt_list    NONE 
pe_list    make newPe 
rerun     FALSE 
slots     160 
tmpdir    /tmp 
shell     /bin/csh 
prolog    NONE 
epilog    NONE 
shell_start_mode  posix_compliant 
starter_method  NONE 
suspend_method  NONE 
resume_method   NONE 
terminate_method  NONE 
notify    00:00:60 
owner_list   NONE 
user_lists   NONE 
xuser_lists   NONE 
subordinate_list  NONE 
complex_values  NONE 
projects    NONE 
xprojects    NONE 
calendar    NONE 
initial_state   default 
s_rt     INFINITY 
h_rt     INFINITY 
s_cpu     INFINITY 
h_cpu     INFINITY 
s_fsize    INFINITY 
h_fsize    INFINITY 
s_data    INFINITY 
h_data    INFINITY 
s_stack    INFINITY 
h_stack    INFINITY 
s_core    INFINITY 
h_core    INFINITY 
s_rss     INFINITY 
h_rss     INFINITY 
s_vmem    INFINITY 
h_vmem    INFINITY 

\ 4 @ smp.qのホストの情報:

qconf -sconf smp03.local 

#smp03.local: 
mailer      /bin/mail 
xterm      /usr/bin/X11/xterm 
execd_spool_dir    /opt/gridengine/default/spool 

\ 5グローバル情報ここにh_vmemとs_vmemを追加しましたか?

qconf -sconf 

#global: 
execd_spool_dir    /opt/gridengine/default/spool 
mailer      /bin/mail 
xterm      /usr/bin/X11/xterm 
load_sensor     none 
prolog      none 
epilog      none 
shell_start_mode    posix_compliant 
login_shells     sh,ksh,csh,tcsh 
min_uid      0 
min_gid      0 
user_lists     none 
xuser_lists     none 
projects      none 
xprojects     none 
enforce_project    false 
enforce_user     auto 
load_report_time    00:00:40 
max_unheard     00:05:00 
reschedule_unknown   00:00:00 
loglevel      log_warning 
administrator_mail   none 
set_token_cmd    none 
pag_cmd      none 
token_extend_time   none 
shepherd_cmd     none 
qmaster_params    none 
execd_params     ENABLE_ADDGRP_KILL=TRUE H_MEMORYLOCKED=infinity 
reporting_params    accounting=true reporting=true \ 
          flush_time=00:00:15 joblog=true sharelog=00:00:00 
finished_jobs    100 
gid_range     20000-20100 
qlogin_command    builtin 
qlogin_daemon    builtin 
rlogin_command    builtin 
rlogin_daemon    builtin 
rsh_command     builtin 
rsh_daemon     builtin 
max_aj_instances    2000 
max_aj_tasks     75000 
max_u_jobs     0 
max_jobs      0 
max_advance_reservations  0 
auto_user_oticket   0 
auto_user_fshare    0 
auto_user_default_project none 
auto_user_delete_time  86400 
delegated_file_staging  false 
reprioritize     0 
jsv_url      none 
jsv_allowed_mod    ac,h,i,e,o,j,M,N,p,w 
+0

私はなぜ失敗したのか分かります。 h_vmemはグローバルに設定されていないようです。つまり、 "qconf -mconf global"に "h_vmem 1024M"を追加する必要があります。しかし、私は管理者が出ているので、それをテストすることはできません。それがうまくいくならば、私はここに解決策を投稿します。 – lam138138

関連する問題