0
私はCUDAプログラムのパフォーマンスを測定するためにCompute Visual Profilerを使用しています。Compute Visual ProfilerのCUDA memset
プロファイラの結果は、cudaMemset関数で2つの異なる結果を示しています。
- memset32_post
- memset128
私はこれらの2の違いは何か知りたいですか?
私はCUDAプログラムのパフォーマンスを測定するためにCompute Visual Profilerを使用しています。Compute Visual ProfilerのCUDA memset
プロファイラの結果は、cudaMemset関数で2つの異なる結果を示しています。
私はこれらの2の違いは何か知りたいですか?
私はmemset128カーネルが仕事の大部分を行い、あなたがに何もない128
の倍数でないサイズを使用するのでmemset32_postカーネルが残りをクリーンアップすることを推測します心配すると、可能な限り最も効率的な方法でmemsetを実装しようとしていますが、内部ループ(任意のプロセッサ上)でmemsetを回避しようとします。あなたが本当にこれについて心配しているなら、あなたは過度に割り振ることができます。
答えはおかしくあります:) – sgarizvi