gpu

0熱

1答えて

GPUデバイスを利用してテンソルフロープログラムを実行すると、次のメッセージが表示されます。 Ignoring visible gpu device (device: 0, name: Quadro 5000, pci bus id: 0000:05:00.0) with Cuda compute capability 2.0.の声明は何を意味していますか？何が無視されるのですか？ 2017-12

0熱

1答えて

メモリコピー速度の比較CPU <-> GPU

私は今boost :: compute openCLラッパーライブラリを学習しています。コピー処理が非常に遅いです。 CPUのコピー速度を1に設定した場合、GPUからGPU、GPUからGPU、CPUからGPUまでのコピー速度はどれくらいですか？正確な数字は必要ありません。ちょうど一般的なアイデアは大きな助けになるでしょう。 CPU-CPUの例では、GPU-GPUより少なくとも10倍高速です。

2熱

1答えて

MXnetバックエンドでKeras 1.2.2を使用してGPUメモリをリセットする

AWS p2.x8largeを使用しており、k-foldクロスバリデーションを使用してモデルを評価しようとしています。最初の繰り返しの後、私のGPUのメモリがいっぱいです。もう一度トレーニングをしようとすると、私はcudaメモリの問題を受け取ります。私の質問はループ内のGPUメモリをリセットする方法ですか？私はK.clear_session（）とgc.collect（）を使いましたが、どれも働

1熱

1答えて

物理的なNVidia GPUカードを持たない仮想マシンでCUDAを実行

ホストマシンに物理的なNVidia GPUカードを持たずに仮想マシンでCUDAプログラムを実行できますか？ PCIeパススルーは、ホストマシンにNVidiaカードがあり、使用できない場合にのみ実行可能です。 GPUがインストールされていないCUDAプログラムを実行するには、エミュレータ/シミュレータ（例：http://gpgpu-sim.org/）を使用することをお勧めしますが、通常これらのシミュ

0熱

1答えて

openmpにタスクを含むアルゴリズムを設計する

私は現在、大きなデータセットで動作し、最後に配列を生成するコードを持っています。これは、グローバルバッファに配列を追加する必要があり、これはすべてループ内で発生します。例えば。 for(i=0;i<10000;i++) { <1. do some processing, generate a 1M-sized array> <2. update this array into glob

0熱

1答えて

CUDAのマルチスレッドカーネルで無駄な書き込み操作が効率的ではありませんか？

CUDAコードにカーネルがあります。共有メモリのいくつかの部分で多くのスレッドを実行したい（グローバルメモリで実行するよりもはるかに速いため）、その結果をグローバルメモリに書き込みます（私はそれ以降のカーネルで使うことができます）。カーネルはこのようなものになります。 __global__ void calc(float * globalmem) { __shared__ float

1熱

1答えて

name_or_scope = Noneでのvariable_scopeの使い方

variable_scopeを使用する場合、通常は最初の引数（name_or_scope）をvariable_scopeの名前として設定します。また、再利用変数を 'True'に設定すると、変数をvariable_scope内で共有できます。しかし、私はテンソルフローAPI（Bahdanauの注意、またはtf.layers.Denseなど）の中に、最初の引数（name_or_scope）がNon

0熱

1答えて

CUBLAS cublasSgemv cublasSegmv.My GPUを実行しているとき、私はセグメンテーションフォールトを得ている「セグメンテーションフォールト」

はK20Xm.Hereが私のコードです。私の限られたテストで float *a, *x, *y; int NUM_VEC = 8; y = (float*)malloc(sizeof(float) * rows * NUM_VEC); a = (float*)malloc(sizeof(float) * rows * cols); x = (float*)malloc(sizeof(flo

5熱

1答えて

Google Cloud MLエンジンにTensorflowデバイスを配置する

Google Cloud MXエンジンで大規模な分散Tensorflowモデルを実行しています。私はGPUを搭載したマシンを使いたいです。私のグラフは、入力/データリーダー機能と計算部分の2つの主要な部分で構成されています。 PSタスク、CPUの入力部分、GPUの計算部分に変数を配置したいと考えています。関数tf.train.replica_device_setterは自動的に変数をPSサーバ

0熱

1答えて

ガウス消去の並列処理

ガウス消去のためのCUDAでシングルスレッドプログラムを正常に実装しており、並列処理を実現したいと考えています。我々はGPU上のコードは、下三角行列に1Dアレイ（行列）を形質転換し、その後CPU上で、私は戻ってまいります見ることができるように __global__ void ParallelGaussian(double* A) { int index = threadIdx.x;