2016-04-04 5 views
0

MPIチェックポイント機能を利用してジョブを保存したいと考えています。 https://wiki.mpich.org/mpich/index.php/CheckpointingMPIチェックポイントの使用

私はSIGUSR1をmpiexec(私の場合はmpirunに送ります)に送信してチェックポイントをトリガできるはずです。

:私は、私は、私はここで-ckpointプレフィックス

で指定された私のチェックポイントディレクトリに保存されたすべてのファイルが表示されないんしかし、私のmpirunは私のコマンドラインである出力 HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

-infoです

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

私が信号を送る方法はkill -s USR1 1900です、1900はミップランのPIDです。私が信号を送るたびに、プログラムは単に終了します。しかし、クラッシュはありません。誰でもMPIチェックポイントの経験はありますか?

答えて

0

私はそれを理解したと思います。私はUSR1をmpirunに送りますが、代わりにmpiexec.hydraに送るべきです。 mpirunとmpiexecというオンラインの記事には同じことが書かれていますが。

関連する問題