MPIチェックポイント機能を利用してジョブを保存したいと考えています。 https://wiki.mpich.org/mpich/index.php/CheckpointingMPIチェックポイントの使用
私はSIGUSR1をmpiexec(私の場合はmpirunに送ります)に送信してチェックポイントをトリガできるはずです。
:私は、私は、私はここで-ckpointプレフィックスで指定された私のチェックポイントディレクトリに保存されたすべてのファイルが表示されないんしかし、私のmpirunは私のコマンドラインである出力 HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select
-infoです
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
私が信号を送る方法はkill -s USR1 1900
です、1900はミップランのPIDです。私が信号を送るたびに、プログラムは単に終了します。しかし、クラッシュはありません。誰でもMPIチェックポイントの経験はありますか?