マルチGPUトレーニング用のTensorflowの新しいデータセットAPI(TFRecords
フォーマット)を使用すると、1つのGPU(1対4テスラ)で実行するよりもかなり遅くK80)。マルチGPUトレーニングでTensorFlowのデータセットAPIを使用する
出力を見ると、GPUを4つ使用するとgpu利用率は約15%になりますが、1つのGPUでは約45%になります。
ディスクからデータをロードすると(tfrecords-format)訓練の速度にボトルネックが発生しますか?通常のfeed-dicts
を使用すると、データセット全体がメモリにロードされるのは、データセットAPIを使用する場合よりも大幅に高速です。