私はcelebAでDCGANを訓練しようとしています。トレーニングプロセスは非常に遅くなっているようで、ボトルネックの原因を突き止めたいと思います。 STANDARD_1、BASIC_GPUを使用するか、または6歳の4コアCPUラップトップでローカルに実行すると、1エポックのトレーニングにかかる時間は非常に似ているようです。これらの3つの構成では、各トレーニングステップには約25秒かかりますが、トレーニングステップには数分かかることがあります。クラウドMLトレーニングのボトルネックを解明
BASIC_GPUを使用する場合、CPU使用率は0.1未満です。私はBASIC層を使って実験を行い、マスターは0.4でホバリングし、ステップごとに約40秒かかった。標準_1を使用している場合、私は以下のCPU使用率を取得:
- マスター:0.28
- 員:0.21
- パラメータサーバ(PS):0.48
BASIC上で実行している場合にはそのCPU使用率を100%に近づけてはいけませんか?
このレートでは、64x64に縮小された画像でcelebAの1つのエポックを訓練するのに22時間かかります。レポから他の人のトレーニングログを見ると、これはGPUを使った他の人のトレーニングよりもかなり高いようです。
あなたが言及した他のトレーニングログへのポインタを提供できますか? – rhaertel80
この人はバッチあたり平均2秒以下のようです:https://github.com/carpedm20/DCGAN-tensorflow/issues/34 – psoulos