CUDAのグローバルメモリへの書き込みの影響についてお聞きしたいと思います。グローバルメモリの読み込みは、着信メモリを待つためにかなりのサイクルが必要となることがあり、実行を一時的にブロックする可能性があるため、パフォーマンス(結合、キャッシュ、バンクの競合)に大きな影響を与えることがよくあります。CUDAのグローバルメモリへの書き込み
しかし、CUDAの書き込みメモリはどうですか?それはどのタイプのメモリ書き込みパターンにも苦しんでいますか?総コストは、カーネル内のすべての書き込みの合計ですか?
関連するすべての参考資料とコメントをお待ちしております。
これはまさに実験プログラムを使って探索するのが楽しい質問の種類です。さまざまなパターンで何百万もの読み書きを実行する基本的なOpenCLまたはCUDAプログラムを書くことができます。繰り返しテストを繰り返し実行し、平均的な結果を確認してください。これはおそらく、起動する各APIの退屈な部分を学ぶ良い方法です。 – James
コメントのためのジェームズありがとう! – Zk1001