CUDAストリームで実際にパフォーマンスを向上させることはできますか？

理論的には、CUDAでストリームを使用するとパフォーマンスが向上するはずGauss-seidelメソッドが実装され、ストリームに必要な時間が驚くほど多くなりました。誰でもパフォーマンスの向上が見られる例があります（サンプルSDKのディレクトリはそれほど有用ではない）CUDAストリームで実際にパフォーマンスを向上させることはできますか？

出典

2011-11-27 username_4567

CUDAストリームを使用すると、PCI Express転送をカーネル処理と同時に実行できます。 Amdahlの法則により、データ転送とカーネル処理を等しく実行するワークロードだけがCUDAストリームの恩恵を受けます。ワークロードが利益をもたらすかどうかを判断するには、アプリケーションにタイミングコードを追加するかプロファイルを作成するか、理論的な最大パフォーマンスのメリットを確認します。

CUDAストリームからパフォーマンスを向上させるには、ダウンロード、カーネルの起動、アップロードを「ソフトウェアパイプライン」する必要があります。

foreach stream { 
    cudaMemcpyAsync(device[stream], host[stream], ... stream); 
} 
foreach stream { 
    LaunchKernel<<<...stream>>>(...); 
    // you can launch multiple kernels in stream, if desired. 
} 
foreach stream { 
    cudaMemcpyAsync(host[stream], device[stream], ... stream); 
}

ないこの：

foreach stream { 
    cudaMemcpyAsync(device[stream], host[stream], ... stream); 
    LaunchKernel<<<...stream>>>(...); 
    cudaMemcpyAsync(host[stream], device[stream], ... stream); 
}

出典

2011-11-29 14:17:28 ArchaeaSoftware

はい、計算時間が重要であり、すべてのデータが相互に依存していない問題でこれを行います。それで、すでに高価なメモリ転送で高価な計算時間を隠すことができます。

CUDAはメモリコピーとカーネルの実行を同時に実行できるため、一方のストリームがメモリコピーを実行している間にもう一方は計算を実行できます。

出典

2011-11-30 09:59:04 jwdmsd

CUDAストリームで実際にパフォーマンスを向上させることはできますか？

答えて

関連する問題