cublas

4熱

1答えて

私はcudaでプログラムを書いていますが、データ転送のオーバーヘッドを減らそうとしています。私は行列乗算のためにcuBLASライブラリを使用しています。値が0〜255の30,000,000の数値を送信する必要があります。私は最終製品をフロートにして1桁に収まると思ってしまうほどコストがかかることを望んでいるので、今はフロートとして送信しています。 cuBLASライブラリやその他の高速数学ライブラ

0熱

1答えて

CUBLASは予期せず動作します

CUDA + CUBLASを使用して私の最初のプログラムを書きました。 'cublasDgemm'関数を使用して、2つのN * N行列の積を計算します。私は自分のプログラムを立ち上げていた頃、同じ誤った答えを得ていました（例えば、5を含む1 * 1行列に要素6を含む1 * 1行列を乗算すると、 30ではなく36である）。プログラムを何度もチェックしましたが、成功しませんでした。しかし、私がそれ

2熱

1答えて

CUBLASは、クエリ

これらが稼働してCUBLASの私の結果ですが、それぞれのGPU（テスラM2050）のための2つのストリームを使用して4つのGPU上でDGEMMパフォーマンスDGEMM：私は私の結果をテストしていると、彼らは大丈夫です。私は、デフォルトのストリームを使用するバージョンと比較して、私が得ている高いGflops値が心配です。複数のストリームを使用するバージョンについては Gflops = {2.0*1