私は与えられた行列の最大値を計算することを含むCUDAカーネルを書いています。私は可能性を評価しています。CUDA:還元または原子操作ですか?
すべてのスレッドに共有メモリ内の値を格納させ、その後に削減アルゴリズムを使用して最大値を決定するようにします(pro:minimum divergence cons:共有メモリは2.0デバイスで48KBに制限されています) )
読み込み操作と書き込み操作の両方があるため、アトミック操作を使用できませんでした。スレッドをsynchthreadsで同期できませんでした。
他のアイデアがあなたの心に浮かんでいますか?
どのように共有メモリの制限はありますか? –