gpgpu

14熱

2答えて

Amazon Web Services Cluster GPUインスタンスに似たプライベートクラウドGPU仮想化

AWSがCluster GPU InstancesにGPUを割り当てる方法と同様に、動的クラウドベースのNVIDIA GPU仮想化を有効にするオプションを探しています。私のプロジェクトでは内部クラウドを立てています。 1つの要件は、サーバ側のCUDA処理のために仮想マシン/インスタンスにGPUを割り当てる機能です。 USCはこれをサポートするためにOpenStack enhancementsに取

6熱

1答えて

OpenCLカーネル内でローカルアレイの動的作成

私は、各サブ配列の合計がローカルキャッシュ配列に保存される複数の配列として配列を処理する必要があるOpenCLカーネルを持っています。例えば、fowlingアレイを想像： [[1, 2, 3, 4], [10, 30, 1, 23]] 各ワークグループは、（exempleに、我々は2作業基を有する）配列を得ます。各作業項目は2つの配列インデックスを処理します（たとえば、値インデックスにlo

5熱

1答えて

CUDAの相違点 - カーネルのスレッドを終了する

スレッドインデックスを大きくするスレッドをどのように終了させることができますか？両方が正しいことを、 int i = threadIdx.x; if(i >= count) return; // do logic または int i = threadIdx.x; if(i < count) { // do logic } 私は知っているが、どちらがより多くのパフ

49熱

2答えて

OpenCLとOpenGLの計算シェーダの違いは何ですか？

私はOpenCLのは、GPUのメモリアーキテクチャの制御を与えるので、より良い最適化を可能にする、しかし、脇にこれを残し、我々は計算シェーダはベクトル演算（加算、乗算、反転など）のために使用することができます知っていますか？別の視点のための

5熱

1答えて

なぜこのopenclコードは非決定的ですか？

次のPythonコードはPyOpenCLを使用して配列a_plus_bを配列bの要素の合計で埋めています（これは私の実際の目的ではありませんが、それでも問題を示す最も簡単なコードです）。 import pyopencl as cl import numpy as np import numpy.linalg as la height = 50 width = 32 b = np.ar

5熱

1答えて

CUDA：マルチプロセッサあたりのスレッドとブロックごとのスレッドの区別は何ですか？

2台のNvidia Quadro FX 5800カードを搭載したワークステーションがあります。 deviceQuery CUDAサンプルを実行すると、マルチプロセッサ（SM）あたりの最大スレッド数は1024であり、ブロックあたりの最大スレッド数は512です。一度に1つのブロックしか各SMで実行できないとすると、 /プロセッサは最大スレッド/ブロックを2倍にしますか？ SMごとに他の512スレッド

7熱

3答えて

GPUアクセラレーションによるXML解析

XMLファイルを解析し、その内容を大規模なSQLデータベースに追加するソフトウェアのパフォーマンスを向上させる必要があります。私はこれをGPU上に実装することが可能かどうかについての情報を見つけようとしています。 CUDAとOpenCLに関する私の研究は、ソフトウェアがC/C++、FORTRAN、およびGPU処理を可能にするコンパイラ指令を使用する他の多くの言語で開発できるという事実を超えて、私に

6熱

1答えて

GPU対CPU？プログラム計算の加速のためのGPUのコア/スレッドの数？

並列計算を行う目的で、CPUのコアとGPUのコアの概念を理解する助けが必要です。 CPUのコアと言えば、かなりシンプルなようです。私は4回反復する超集中的な "for"ループを持っています。私はIntel i5 2.26GHz CPUに4つのコアを搭載しています。私は各コアに1つのループを与えます。 4つのループはそれぞれ独立しています。ブーム - 私は4つのスレッドを作成し、CPU使用率を100

8熱

1答えて

共有CUDAメモリでvolatileを使用する場合

volatileキーワードをCUDAカーネルの共有メモリに使用する必要がありますか？ __shared__ float products[THREADS_PER_ACTION]; // some computation products[threadIdx.x] = localSum; // wait for everyone to finish their computation _

6熱

1答えて

gpuでの大きな行列乗算

大きな行列のためにCUDAを使ってGPUで行列乗算を実装する必要があります。各マトリックスのサイズだけがGPUメモリよりも大きい。だから私はそれを効率的に行うアルゴリズムが必要だと思います。私はインターネットを回ったが、何も見つけられなかった。誰も私にそのようなアルゴリズムの名前やリンクを教えてもらえますか？ありがとうございました