次元A×NとN×Bの2つの行列間のGEMMスタイルハミング距離を計算するために最適化されたCUDAカーネルを知っている人はいませんか?この問題は、GEMMとほぼ同じですが、各ベクトル要素を掛け合わせる代わりに、各ベクトル{1 ... N}の合計(a_n!= b_n)を計算します。最適化されたCUDA行列ハミング距離
この問題は比較的一般的であるため、私は自分で作成する前に検証したかったが、まだコードを見つけることに成功していない。変更するコードの提案も優れています。
EDIT:以下kangshiyinの提案に加えて
、私はthis walk-through of an optimized SGEMM implementationは、CUDA Cプログラミング・ガイドの基本的な共有メモリ行列乗算の例を超えた段階を理解する上で非常に有用であることが判明しました。