cuda

-2熱

1答えて

SuiteSparse CHOLMODすべてのデモテストに合格してもgpu_memorysizeエラーが発生する

Ubuntu 16.04LTS; SuiteSparse 4.5.5; CUDA 8.0.61（パフォーマンスアップ） Nvidiaドライバ384.98; 私はGPUアクセラレーションを成功させました。CHOLMODはコードに正常に実装され、数ヶ月間うまく動作しました。そして、最近、青（ソースコードへの変更なし）の外に、私は私の出力には、これらのエラーを見て開始しました：私は、サードパーティのライ

0熱

1答えて

cudaStreamAddCallbackに渡されたコールバックを実行するスレッドは何ですか？

cudaStreamAddCallback()経由でコールバックを登録すると、どのスレッドがそれを実行するのですか？ CUDAのドキュメントはcudaStreamAddCallback は、ストリーム内のすべての現在キューに入れられた項目が完了した後にホストに呼び出されるコールバックを追加することを言います。 cudaStreamAddCallbackコールごとに、コールバックが1回だけ実行されま

0熱

1答えて

ヘッドレスノードでCUDAコードをプロファイルする方法は？

私はプロファイルしたいCUDAアプリケーションに取り組んでいます。今まで私が使ってきたのはコマンドラインプロファイラのnvprofだけで、集計された統計情報が表示されます。私はGUIプロファイラNVVPの使用について考えました。問題は、アプリケーションを実行しているリモートのLinuxノードにGUI（X.orgを含む）がないことです。さらに、たとえリモートノード上でX11スタックをいくつか取得で

-4熱

1答えて

なぜ再帰アルゴリズムを効率的に並列化できないのですか？

再帰を含むシーケンシャルコードを、openmp、CUDAまたはMPIで書かれた同等のパラレルコードに変換することは非常に困難です。なぜそうですか？

0熱

1答えて

テンソルフローCUDA_ERROR_UNKNOWNエラー

私は、CUDA 8とテンソルフロー1.4用にCUDA Toolkit 8.0 GA2、cuDNN v6.0をダウンロードしました。私はNvidia 740Mグラフィックチップを持っています。私はtensorflowテストするには、このコードを実行しようとした： import tensorflow as tf hello = tf.constant('Hello, TensorFlow!') s

0熱

1答えて

NumbaでGPUで三角関数を使用するにはどうすればよいですか？

私はnumba.vectorizeとtarget='cuda'をテストしています。numpy.sinとnumpy.expのような数学関数を使用して問題に遭遇しました（これは解決したい問題に不可欠です）。最小例： @vectorize(["float32(float32)"], target='cuda') def f(x): return np.sin(x) 私はjupyterの

0熱

1答えて

PGIコンパイラのCUDAツールキットにlink.stubがありません

PGakeコンパイラに付属のCUDAツールキット9.0を使用してCMake/CUDAプロジェクトを構築しようとしています。私がしようとしたとき、私はcmakeを実行すると残念ながら、私は次のエラーを取得する： /home/user/opt/pgi/linux86-64/2017/cuda/9.0/bin/nvcc -ccbin=/usr/bin/g++-6 -shared -dlink CMak

1熱

1答えて

単純なpycudaカーネルの変な振る舞い

私はcudaとpycudaにはかなり新しいです。同じ配列をn回単に "繰り返す"ことによって、配列（1xd）から行列（次元nxd）を作成するカーネルが必要です。たとえば、n = 4、d = 3とし、配列は[1 2 3] であれば、私のカーネルの結果は次のようになります。 [1 2 3 1 2 3 1 2 3 1 2 3] （行列4x3の）。基本的に、それは私は以下のコード書いたnum

-1熱

1答えて

キュー内の循環グローバルバッファに対するアトミック操作

すべてのスレッドが同じバッファに同時にデータを読み書きできるように循環グローバルメモリを実装しています。これは、CPUの非常に単純なプロデューサ/コンシューマアルゴリズムです。しかし、私は私のcudaコードで何かが間違っているのを見つけました。次のように円形のバッファを定義した： #define BLOCK_NUM 1024 #define THREAD_NUM 64 #define BUF