私はcudaでプログラムを書いていますが、データ転送のオーバーヘッドを減らそうとしています。私は行列乗算のためにcuBLASライブラリを使用しています。値が0〜255の30,000,000の数値を送信する必要があります。CUDAとcuBLASでの型キャスト
私は最終製品をフロートにして1桁に収まると思ってしまうほどコストがかかることを望んでいるので、今はフロートとして送信しています。
cuBLASライブラリやその他の高速数学ライブラリを使用しているときに、それらをバイトとして送信して浮動小数点数として型変換する方法はありますか?または、何らかの形でフロートとしてそれらを整列させるようにGPUに指示しますか?