gpgpu

    -2

    3答えて

    上のデータを構築し、使用して: GLfloat Vertices[] = { some, numbers, here, some, more, numbers, numbers, numbers, numbers }; また、vec4でもかまいません。 しかし、その後、あなたはこのような何か: for(int i = 0; i < 10000; i++) for(int j

    1

    1答えて

    これは実際にはうまくいきますので、スレッド内のデバイスに動的にメモリを割り当てているのでしょうか?もしそうなら、__device__ mallocの使用は何よりもはるかに高速ですから?私はカーネルでcudaMallocを使用するときにシーンの背後に本当に何が起こっているのかを尋ねています。ヒープ上のデバイスmallocよりもはるかに速く見えるからです。 #include <iostream> #

    3

    1答えて

    私は自分のプロジェクトでcuDNNライブラリの使用を研究します。しかし、私のNVIDIAグラフィックカードは少し古いです。 cuDNNがすべてのグラフィックカードで動作するかどうかをネットで検索します。私は彼らのプリンシパルページでさえ見つからなかった。 どのnVidiaグラフィックカードがcuDNNと互換性がありますか?

    1

    1答えて

    私はTheanoとGPGPUとしてIntel GPUを使用する方法を探しています。 私は既にIntel OpenCLとlibgpuarrayをインストールしましたが、テストコード 'python -c "import pygpu; pygpu.test()"'がプロセスをクラッシュしました。そして、私はそれが原因でdevnameメソッドを見つけました。もっと多くのエラーがあるようです。 正常に動作

    0

    1答えて

    ドキュメントには、一致する値を持つベクトル(1d行列)の値のインデックスを取得する方法が表示されます。 最も近い例は次のとおりです。 Mat b; Mat a = b == 5; だからこれは私にブールの行列を与える必要があります。そして、私はそれを5に等しい値のインデックスを抽出するために使用することができます。より効果的な方法がありますか?ベクトルのすべての値をGPUにパラレルに送信して

    -3

    1答えて

    私はCUDAを学び始めており、プロジェクトに直接飛び込んでいなければなりません。私は途中でそれを拾うだろう。 私はハードウェアが内蔵されている方法は、スレッドブロックおよびグリッドに対処するために、プログラマが必要であることを理解している間、私は私の入門書では、以下の質問に対する答えを見つけることができませんでした: タスクのサイズがGPUが一度に処理できるスレッドの量よりも大きい場合はどうなりま

    0

    1答えて

    私がしようとしているのは、キーで平均値をthrust::reduce_by_keyで得ることです。私は最初にsort_by_keyとそれはちょうどreduce_by_keyの連続するキーでグループ化するためにうまく動作します。私はthisを使って、これまで私を助けました。しかし、私は理解できない多くのエラーが発生しています(reduce_by_keyを使った初めてのことです)。これを行うためのより

    -2

    1答えて

    私はcudaMalloc関数の使用に対して問題があります。確かに、それは常に以下でもこの例のように非常に単純な場合には、私に「cudaErrorInvalidValue」エラーを返します: cudaError_t error; int hostTest = 12; int* deviceTest = NULL; error = cudaMemcpy(deviceTest, &hostTest

    3

    1答えて

    thrust::reduce_by_keyを実行したいとしますが、出力キーが何であるか気にしません。任意の計算時間とメモリ割り当てを節約する方法があるのですが、何らかの理由でnullオブジェクト(nullポインタ、おそらく)をそのパラメータのアルゴリズムに渡して、出力キーの無意味なリストを作成しないようにしますか? thrust::reduce_by_key( keys_input.beg