私は、1台のマシンで比較的少数の共有パラメータを持つ非常に幅広く浅い計算グラフを作成しています。私はグラフを広げたいが、メモリが足りなくなっている。 Distributed Tensorflowを使用することで、tf.deviceコンテキストマネージャを使用して、ワーカー間でグラフを分割することができます。しかし、損失をどのように処理するかは明確ではありません。これは、グラフ全体を実行することによってのみ計算することができ、トレーニング操作です。ワイドで浅いモデルの分散トレーニング
この種のモデルのパラメータを訓練する正しい戦略は何でしょうか?