あなたが「16キロバイトの共有メモリ+ 48K L1キャッシュ」または「48キロバイトの共有メモリ+ 16キロバイトのL1キャッシュ」CUDAプログラミングの両方を使用しての違いを説明してくださいもらえますか?時間の実行ではどうすればよいですか?いつ私はより小さなGPU時間を期待することができますか?CUDAプログラミング - 共有メモリ構成
1
A
答えて
3
フェルミおよびケプラーnVIDIA GPUでは、各SMには64KBのメモリチャンクがあり、16/48または48/16共有メモリ/ L1キャッシュとして構成できます。どちらのモードを使用するかは、カーネルがどのくらい共有メモリを使用するかによって決まります。カーネルが多くの共有メモリを使用している場合は、48KBの共有メモリとして構成すると、占有率が向上し、パフォーマンスが向上します。
一方、カーネルが共有メモリをまったく使用しない場合、またはスレッドごとにごくわずかな量しか使用しない場合は、48KBのL1キャッシュとして構成します。
CUDAツールキットに含まれているスプレッドシートである「占有量計算機」と「here」を使用すると、「非常に少量」の量が最もよく示されます。このスプレッドシートを使用すると、ブロックごとの異なる共有メモリとブロックサイズの違いを調べることができます。
関連する問題
- 1. cudaの共有メモリと管理対象メモリの変数
- 2. CUDA - ダイナミック共有メモリがthrust :: system :: system_errorをトリガー
- 3. CUDA共有メモリの最大値を見つける
- 4. ローカルメモリはCUDAの共有メモリよりも遅いですか?
- 5. 2D共有メモリをCUDAに配置する方法
- 6. CUDA共有メモリ配列 - 奇妙な動作
- 7. 静的対動的CUDA共有メモリ割り当てのパフォーマンス
- 8. 共有CUDAメモリでvolatileを使用する場合
- 9. 共有メモリでのCUDA行列の転置
- 10. 共有メモリに保持できるデータの量CUDA
- 11. 共有メモリおよびグローバルメモリアクセス
- 12. 共有データベース/メモリ
- 13. RDMAメモリ共有
- 14. uda共有メモリ上書き?
- 15. electron.atom.ioと共有メモリ
- 16. 継承共有メモリ
- 17. cython共有メモリ - ブロック
- 18. Linuxの共有メモリ
- 19. セマフォと共有メモリ
- 20. ビジュアルスタジオと共有メモリ
- 21. OpenCLの共有メモリ
- 22. CUDAアーキテクチャのプログラミング
- 23. 可変行列サイズのCUDAでの行列乗算と共有メモリの使用
- 24. は2つのGPU共有メモリを処理できますか? (CUDA)
- 25. CUDA共有メモリはグローバルより高速ではありませんか?
- 26. CUDA共有メモリ割り当ての定数を宣言する場所
- 27. CUDA共有メモリが必要以上に2倍のスペースを占める
- 28. CUDA:中間共有メモリの場所へのポインタ予期しない動作
- 29. TensorFlow CPUとCUDAコードの共有
- 30. データ配信と共有メモリ
何かを変更する必要がある場合は、重複した質問(http://stackoverflow.com/questions/10180949/cuda-programming-l1-and-l2-caches)を投稿しないでください。元の質問を編集してください。 – ulmangt
公正では、これは重複した質問ではありません。あなたがリンクしたもう一つの質問は、L1/L2キャッシュについてのものでした。これはL1/smemに関するものです。 Smem(共有メモリ)はL2とは全く別の話題です。 – Tom