5
Tensorflowは、単一のGPUで計算グラフを同時に実行するためにCudaストリームを自動的に使用しますか、ストリームを手動でops /テンソルに割り当てる必要がありますか?TensorflowはCudaストリームをどのようにサポートしていますか?
Tensorflowは、単一のGPUで計算グラフを同時に実行するためにCudaストリームを自動的に使用しますか、ストリームを手動でops /テンソルに割り当てる必要がありますか?TensorflowはCudaストリームをどのようにサポートしていますか?
今のところ、TensorFlowは1つの計算ストリームと複数のコピーストリームしか使用しません。いくつかのカーネルは、単一ストリームのセマンティクスを維持しながら、複数のストリームを計算に使用することを選択する場合があります。
私たちの実験では、マルチストリームを有効にすると自動的にパフォーマンスが向上することはありませんでした。ほとんどのカーネルはGPUのすべてのプロセッサを使用できるほど大きいためです。しかし、マルチストリームを有効にすると、現在の設計がGPUメモリを積極的にリサイクルすることができなくなります。
今後これを再検討する可能性があります。このような場合、TensorFlowはユーザーに公開することなく、異なるCudaストリームにops/kernelを自動的に割り当てる可能性があります。