私は複数の4GB GPUノードを持っていますので、それらを並列に巨大モデルを実行してください。適切なデバイススコープで複数のレイヤーに分割するだけで、モデルの並列処理が可能になりますが、マスターノード(タスク0)のメモリフットプリントは削減されません。 (10ノード構成 - マスター:20g、フォロワー:2g、1ノード構成 - マスター:6〜7g)テンソルフローでモデルの並列処理を行う正しい方法は何ですか?
疑問のあるものは、デバイスの正しい範囲を設定しなかったためです。
私のモデルはgithubの上でご利用いただけます(https://github.com/nakosung/tensorflow-wavenet/tree/model_parallel_2)
デバイス配置ログはここにある:https://gist.github.com/nakosung/a38d4610fff09992f7e5569f19eefa57