私はMPIをサポートするTensorFlow(マスター)をコンパイルしましたが、tf.train.Serverオブジェクトに "grpc + mpi"プロトコルを指定しています。トレーニング手順を起動しようとしたときしかし、常にエラー分散テンソルフローでgrpc + mpiプロトコルを使用する - エラー
F ./tensorflow/contrib/mpi/mpi_utils.h:47] Failed to convert worker name to MPI index: ps:0:0
私は、エラーを再現するたびに失敗し、正確に1つのワーカーがあり、それは「変換」に失敗した別の労働者です。パラメタサーバのプロパティを実際に変換することができないと考えると、変換に失敗した名前は「ワーカー」の名前であることは、私にとっては疑問です。
"標準"プロトコル "grpc"を使用すると、トレーニング手順全体が正常に機能します。
各ワーカーおよび単一パラメータサーバーは、専用のマシン(共有マシンなし)で実行されます。 OpenMPIバージョン2.1.1
これをデバッグする方法はありますか?残念ながら私はMPIの知識はあまりありません。
おかげで、
マット