cublas

    4

    1答えて

    私はcudaでプログラムを書いていますが、データ転送のオーバーヘッドを減らそうとしています。私は行列乗算のためにcuBLASライブラリを使用しています。値が0〜255の30,000,000の数値を送信する必要があります。 私は最終製品をフロートにして1桁に収まると思ってしまうほどコストがかかることを望んでいるので、今はフロートとして送信しています。 cuBLASライブラリやその他の高速数学ライブラ

    0

    1答えて

    CUDA + CUBLASを使用して私の最初のプログラムを書きました。 'cublasDgemm'関数を使用して、2つのN * N行列の積を計算します。 私は自分のプログラムを立ち上げていた頃、同じ誤った答えを得ていました(例えば、5を含む1 * 1行列に要素6を含む1 * 1行列を乗算すると、 30ではなく36である)。 プログラムを何度もチェックしましたが、成功しませんでした。しかし、私がそれ

    2

    1答えて

    これらが稼働してCUBLASの私の結果ですが、それぞれのGPU(テスラM2050)のための2つのストリームを使用して4つのGPU上でDGEMMパフォーマンスDGEMM:私は私の結果をテストしていると、彼らは大丈夫です 。私は、デフォルトのストリームを使用するバージョンと比較して、私が得ている高いGflops値が心配です。複数のストリームを使用するバージョンについては Gflops = {2.0*1