0
警告物理メモリを登録するあるOpenFabrics:OpenMPIのと、私はコマンドを使用してmpirunの開始
mpirun -np 2 prog
と、次の出力を取得:
--------------------------------------------------------------------------
WARNING: It appears that your OpenFabrics subsystem is configured to only
allow registering part of your physical memory. This can cause MPI jobs to
run with erratic performance, hang, and/or crash.
This may be caused by your OpenFabrics vendor limiting the amount of
physical memory that can be registered. You should investigate the
relevant Linux kernel module parameters that control how much physical
memory can be registered, and increase them to allow registering all
physical memory on your machine.
See this Open MPI FAQ item for more information on these Linux kernel module
parameters:
http://www.open-mpi.org/faq/?category=openfabrics#ib-..
Local host: node107
Registerable memory: 32768 MiB
Total memory: 65459 MiB
Your MPI job will continue, but may be behave poorly and/or hang.
--------------------------------------------------------------------------
hello from 0
hello from 1
[node107:48993] 1 more process has sent help message help-mpi- btl-openib.txt/reg mem limit low
[node107:48993] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help/error messages
その他のインストールソフト(インテルMPIライブラリー)がエラーなしで、正常に動作し、すべての64GBメモリを使用します。
OpenMPIの場合、私はPBSマネージャ(Torque、slurmなど)を使用しません。シングルノードで作業します。私は次の出力を得る
cat /etc/security/limits.conf
コマンドのコマンドによりノードに
ssh node107
を取得する:コマンドの場合
...
* soft rss 2000000
* soft stack 2000000
* hard stack unlimited
* soft data unlimited
* hard data unlimited
* soft memlock unlimited
* hard memlock unlimited
* soft nproc 10000
* hard nproc 10000
* soft nofile 10000
* hard nofile 10000
* hard cpu unlimited
* soft cpu unlimited
...
cat /sys/module/mlx4_core/parameters/log_num_mtt
私は出力を得る:
を0
コマンド:
cat /sys/module/mlx4_core/parameters/log_mtts_per_seg
出力:
3
コマンド:
getconf PAGESIZE
出力:
4096
これにより0
はparamsは式によって
max_reg_mem = (2^log_num_mtt) * (2^log_mtts_per_seg) * PAGE_SIZE
max_reg_mem = 32768のバイトを、また32ギガバイト、OpenMPIの警告で指定された方法。
この理由は何ですか? OpenMPiはMellanoxとparams log_num_mtt、log_mtts_per_segを使用できませんか? 64GBのメモリをすべて使用するようにOpenFabricsを設定する方法は?
[TorqueジョブのOpenFabricsメモリ制限をどのようにして増やすことができますか?](http://stackoverflow.com/questions/17755433/how-can-i-increase-openfabrics-memory-limit-for-torque-ジョブ)。あなた、システム管理者、またはノードへのルートアクセス権を持っている人は、 'log_num_mtt'の値を11に増やすべきです(あなたの質問では' 0'は入力ミスで、 '10'でなければなりません)。 'mlx4_core'カーネルモジュールです。しかし、これは単一ノードジョブには関係なく、警告は無視しても問題ありません。 –