gpu

    0

    1答えて

    GPUデバイスを利用してテンソルフロープログラムを実行すると、次のメッセージが表示されます。 Ignoring visible gpu device (device: 0, name: Quadro 5000, pci bus id: 0000:05:00.0) with Cuda compute capability 2.0.の声明は何を意味していますか?何が無視されるのですか? 2017-12

    0

    1答えて

    私は今boost :: compute openCLラッパーライブラリを学習しています。 コピー処理が非常に遅いです。 CPUのコピー速度を1に設定した場合、GPUからGPU、GPUからGPU、CPUからGPUまでのコピー速度はどれくらいですか? 正確な数字は必要ありません。ちょうど一般的なアイデアは大きな助けになるでしょう。 CPU-CPUの例では、GPU-GPUより少なくとも10倍高速です。

    2

    1答えて

    AWS p2.x8largeを使用しており、k-foldクロスバリデーションを使用してモデルを評価しようとしています。 最初の繰り返しの後、私のGPUのメモリがいっぱいです。もう一度トレーニングをしようとすると、私はcudaメモリの問題を受け取ります。 私の質問はループ内のGPUメモリをリセットする方法ですか?私はK.clear_session()とgc.collect()を使いましたが、どれも働

    1

    1答えて

    ホストマシンに物理的なNVidia GPUカードを持たずに仮想マシンでCUDAプログラムを実行できますか? PCIeパススルーは、ホストマシンにNVidiaカードがあり、使用できない場合にのみ実行可能です。 GPUがインストールされていないCUDAプログラムを実行するには、エミュレータ/シミュレータ(例:http://gpgpu-sim.org/)を使用することをお勧めしますが、通常これらのシミュ

    0

    1答えて

    私は現在、大きなデータセットで動作し、最後に配列を生成するコードを持っています。これは、グローバルバッファに配列を追加する必要があり、これはすべてループ内で発生します。例えば。 for(i=0;i<10000;i++) { <1. do some processing, generate a 1M-sized array> <2. update this array into glob

    0

    1答えて

    CUDAコードにカーネルがあります。共有メモリのいくつかの部分で多くのスレッドを実行したい(グローバルメモリで実行するよりもはるかに速いため)、その結果をグローバルメモリに書き込みます(私はそれ以降のカーネルで使うことができます)。カーネルはこのようなものになります。 __global__ void calc(float * globalmem) { __shared__ float

    1

    1答えて

    variable_scopeを使用する場合、通常は最初の引数(name_or_scope)をvariable_scopeの名前として設定します。また、再利用変数を 'True'に設定すると、変数をvariable_scope内で共有できます。 しかし、私はテンソルフローAPI(Bahdanauの注意、またはtf.layers.Denseなど)の中に、最初の引数(name_or_scope)がNon

    0

    1答えて

    はK20Xm.Hereが私のコードです。私の限られたテストで float *a, *x, *y; int NUM_VEC = 8; y = (float*)malloc(sizeof(float) * rows * NUM_VEC); a = (float*)malloc(sizeof(float) * rows * cols); x = (float*)malloc(sizeof(flo

    5

    1答えて

    Google Cloud MXエンジンで大規模な分散Tensorflowモデルを実行しています。私はGPUを搭載したマシンを使いたいです。 私のグラフは、入力/データリーダー機能と計算部分の2つの主要な部分で構成されています。 PSタスク、CPUの入力部分、GPUの計算部分に変数を配置したいと考えています。 関数tf.train.replica_device_setterは自動的に変数をPSサーバ

    0

    1答えて

    ガウス消去のためのCUDAでシングルスレッドプログラムを正常に実装しており、並列処理を実現したいと考えています。我々はGPU上のコードは、下三角行列に1Dアレイ(行列)を形質転換し、その後CPU上で、私は戻ってまいります見ることができるように __global__ void ParallelGaussian(double* A) { int index = threadIdx.x;