私は効率的で時間がかかるので、この目的のためにカフを使用するコードを作成していますが、並列で非常に大きなデータのfftを計算しようとすると、CPUのfftwより遅くなり、精度の高いタイミングコードを使用するコード行ごとに、cudamallocは約0.983秒、残りのコード行は約0.00xx秒です。cudamallocはcudamemcpyよりも遅いですか?
私はいくつかの記事に関連するが、それら
に従ってGPUを有する主遅延は、メモリ転送しないメモリの割り当てに起因する
そしてまた、それが書かれた柱の一つが
CUDAライブラリ関数のいずれかに非常に最初の呼び出しは、この遅延の実際の理由が何であるかを初期化サブルーチン
に起動することで...またはコードの実行でそのような遅延を持つことは正常ではありませんか?
ありがとうございました
あなたはそれ以上の調査をしていますが、その遅延は最初のcuda関数の呼び出し中であることがわかります...そして、私はVS 2008で作業しているので、おそらくPTXコンパイルによるものです詳細...返信ありがとうございました.. – snabbasi
+1私のLinuxマシン(Xを実行していない)で 'nvidia-smi -pm 1 'を実行すると、CUDAプログラムを実行しているときの起動遅延がなくなりました。ありがとう! –