0
[Tensorflow distributed training] CPUでPSから変数を共有するAPIを1つ書き、すべてのGPUがPSではなくCPUから最新の値を引き出すことができます。さらに、GPUプッシュグラジエントをppversの代わりにcpuに終了し、その後間接的にpssversにマージされたグラディエントをプッシュします。グラフを1つ書き、CPUに勾配と値を集計することはできますか?
[Tensorflow distributed training] CPUでPSから変数を共有するAPIを1つ書き、すべてのGPUがPSではなくCPUから最新の値を引き出すことができます。さらに、GPUプッシュグラジエントをppversの代わりにcpuに終了し、その後間接的にpssversにマージされたグラディエントをプッシュします。グラフを1つ書き、CPUに勾配と値を集計することはできますか?
好きなデバイスに任意のオペレーションを配置することができます。慎重なアプリケーションの場合はwith tf.device("device_name"):
ブロックです。そうです、この種の集約を行うことは可能です。
ご協力ありがとうございます。 私は今どのようにそれを行うのか分かりませんが、より良い分散パフォーマンスを得るためには自信があります。 わかりやすい考えでは、私はすべての変数をpsに割り当て、すべての作業者はpsの変数を共有し、CPUホストメモリに変数を複製しています。しかし、すべてのGPUを有効にする方法は、psではなくローカルのHOSTから変数を取得するのですか? –
"ops.device("/job:worker/cpu:0 ")を使用してcpu_cached_variable = tf.identity(variable_on_ps)を実行してから、GPUコード" –
"にcpu_cached_variableを使用してください。分散したパフォーマンスであっても、数日以内に応答してください。 サーバGPUを各ノードに所有しているMulit-nodeの分散トレーニングを実行するための提案があれば、感謝します。 –