2
実行時にスレッドによってアクセスされるグローバルメモリのアドレスを確認することはできますか?CUDA:グローバルメモリアクセスアドレス
オーバーヘッドが大きくなることはわかっていますが、どの要素がアクセスされているのか確認したいと思います。合体メカニズムがどのように実装されているのか理解するのに役立つと思います。
ありがとうございます。
実行時にスレッドによってアクセスされるグローバルメモリのアドレスを確認することはできますか?CUDA:グローバルメモリアクセスアドレス
オーバーヘッドが大きくなることはわかっていますが、どの要素がアクセスされているのか確認したいと思います。合体メカニズムがどのように実装されているのか理解するのに役立つと思います。
ありがとうございます。
CUDAスレッドコードは、CおよびC++構文パターンに大きく従います。だから、簡単にカーネルコード内のポインタの数値をプリントアウトすることができます
printf("pval = %p\n", my_pointer);
あなたはCUDAのカーネルでスレッド間でこれをやってみたかった場合は、行うことができます:
__global__ void my_kernel(int *data){
int idx = threadIdx.x+blockDim.x*blockIdx.x;
printf("thread: %d, pointer: %p, value: %d\n", idx, &(data[idx]), data[idx]);
}
または類似します。明らかに、多数のスレッドを使用すると、大量の出力が生成され、インカーネルprintf
はサイズが制限されたバッファを使用することに注意してください。
ありがとうございました。たぶん単純なポインタ算術を使って、アクセスが「合併されていない」とき(例えば、非単位のストライドやそのようなものなど)を見て、それを印刷してみることができます。 – algoProg