cuda

    -2

    1答えて

    Ubuntu 16.04LTS; SuiteSparse 4.5.5; CUDA 8.0.61(パフォーマンスアップ) Nvidiaドライバ384.98; 私はGPUアクセラレーションを成功させました。CHOLMODはコードに正常に実装され、数ヶ月間うまく動作しました。そして、最近、青(ソースコードへの変更なし)の外に、私は私の出力には、これらのエラーを見て開始しました:私は、サードパーティのライ

    0

    1答えて

    cudaStreamAddCallback()経由でコールバックを登録すると、どのスレッドがそれを実行するのですか? CUDAのドキュメントはcudaStreamAddCallback は、ストリーム内のすべての現在キューに入れられた項目が完了した後にホストに呼び出されるコールバックを追加することを言います。 cudaStreamAddCallbackコールごとに、コールバックが1回だけ実行されま

    0

    1答えて

    私はプロファイルしたいCUDAアプリケーションに取り組んでいます。今まで私が使ってきたのはコマンドラインプロファイラのnvprofだけで、集計された統計情報が表示されます。 私はGUIプロファイラNVVPの使用について考えました。問題は、アプリケーションを実行しているリモートのLinuxノードにGUI(X.orgを含む)がないことです。さらに、たとえリモートノード上でX11スタックをいくつか取得で

    -4

    1答えて

    再帰を含むシーケンシャルコードを、openmp、CUDAまたはMPIで書かれた同等のパラレルコードに変換することは非常に困難です。 なぜそうですか?

    0

    1答えて

    私は、CUDA 8とテンソルフロー1.4用にCUDA Toolkit 8.0 GA2、cuDNN v6.0をダウンロードしました。私はNvidia 740Mグラフィックチップを持っています。私はtensorflowテストするには、このコードを実行しようとした: import tensorflow as tf hello = tf.constant('Hello, TensorFlow!') s

    0

    1答えて

    私はnumba.vectorizeとtarget='cuda'をテストしています。numpy.sinとnumpy.expのような数学関数を使用して問題に遭遇しました(これは解決したい問題に不可欠です)。 最小例: @vectorize(["float32(float32)"], target='cuda') def f(x): return np.sin(x) 私はjupyterの

    0

    1答えて

    PGakeコンパイラに付属のCUDAツールキット9.0を使用してCMake/CUDAプロジェクトを構築しようとしています。私がしようとしたとき、私はcmakeを実行すると残念ながら、私は次のエラーを取得する: /home/user/opt/pgi/linux86-64/2017/cuda/9.0/bin/nvcc -ccbin=/usr/bin/g++-6 -shared -dlink CMak

    1

    1答えて

    私はcudaとpycudaにはかなり新しいです。 同じ配列をn回単に "繰り返す"ことによって、配列(1xd)から行列(次元nxd)を作成するカーネルが必要です。たとえば、n = 4、d = 3とし、配列は[1 2 3] であれば、私のカーネルの結果は次のようになります。 [1 2 3 1 2 3 1 2 3 1 2 3] (行列4x3の)。 基本的に、それは私は以下のコード書いたnum

    -1

    1答えて

    すべてのスレッドが同じバッファに同時にデータを読み書きできるように循環グローバルメモリを実装しています。これは、CPUの非常に単純なプロデューサ/コンシューマアルゴリズムです。しかし、私は私のcudaコードで何かが間違っているのを見つけました。 次のように円形のバッファを定義した: #define BLOCK_NUM 1024 #define THREAD_NUM 64 #define BUF