スレッドインデックスを大きくするスレッドをどのように終了させることができますか?両方が正しいことを、 int i = threadIdx.x;
if(i >= count)
return;
// do logic
または int i = threadIdx.x;
if(i < count) {
// do logic
}
私は知っているが、どちらがより多くのパフ
次のPythonコードはPyOpenCLを使用して配列a_plus_bを配列bの要素の合計で埋めています(これは私の実際の目的ではありませんが、それでも問題を示す最も簡単なコードです)。 import pyopencl as cl
import numpy as np
import numpy.linalg as la
height = 50
width = 32
b = np.ar
volatileキーワードをCUDAカーネルの共有メモリに使用する必要がありますか? __shared__ float products[THREADS_PER_ACTION];
// some computation
products[threadIdx.x] = localSum;
// wait for everyone to finish their computation
_