gpgpu

    -1

    1答えて

    ホストの固定メモリからCUDAデバイスにアレイの一部をコピーします。たとえば、私は500の固定メモリを割り当てました。私は、デバイス上の300の配列に要素100〜399をコピーしたいと思います。 これは、私がこれを実行すると、私はホストとデバイスのコピーのために、このエラーを取得し、 int main() { const unsigned int N = 500; const

    1

    1答えて

    私はOpenCLの1.1標準(セクション6.11.10) から次の引用は、イベントの引数はにも使用することができ、右アム async_work_group_copyを以前の非同期コピーと関連付けて、 へのイベントを複数の非同期コピーで共有できるようにします。 は、私は、「グループ」、複数の単一のイベントとasync_work_group_copy()通話と使用完了するために、オペレーションをコピー

    0

    1答えて

    動的解析はCUDAプログラム上で実行されていました。その結果、特定のスレッドが同じワープになるように改善されました。 例えば、1024のudaスレッドと32のワープ・サイズを持つふりをしましょう。動的分析の後、スレッド989,243,819、...、42(32個のスレッド総数)が同じワープ。 はと同じワープでなければならないと判断しました。これは、コード実行時に発散がほとんどないためです(CUDA

    1

    1答えて

    私は英語で書かれた英語を事前に警告します。それは良くないので、私は多くの間違いをするでしょうので、いくつかの忍耐をしてください。 有限要素解析の並列アルゴリズムのベンチマークを行うために、グラフィックカードを公開する必要があります。私はこのリンクhttps://software.intel.com/en-us/intel-openclでintel sdkをダウンロードしました。 私はUbuntu

    1

    2答えて

    タイトルのとおりです。 私は、使用したい並列化画像作成/処理アルゴリズムを持っています。これはパーリンノイズの実装の一種です。比較として // Logging is never used here #pragma version(1) #pragma rs java_package_name(my.package.name) #pragma rs_fp_full float sizeX,

    3

    3答えて

    質問が示唆しているように、私は深い学習には新しいです。私はモデルの学習プロセスがGPUなしでは遅くなることを知っています。私が待つことを喜んですれば、私はCPUだけを使用すればOKだろうか?

    0

    1答えて

    私はparallel forall post on instruction level profilingを理解しようとしています。特にメモリー依存ストールを削減セクションに、次の行: NVIDIAのGPUは、レジスタファイルのインデックスを作成していないので、スタックアレイはダイナミックなインデックスでアクセスした場合、コンパイラは、ローカルメモリに配列を割り当てる必要があります。 Maxwel

    0

    1答えて

    GPGPUとCUDAを初めて使用しています。私の読書から、現在の世代のCUDA GPUでは、スレッドは32スレッドのワープにバンドルされます。ワープ内のすべてのスレッドが同じ命令を実行するので、分岐に分岐がある場合、すべてのスレッドは基本的に、発生したすべての分岐を取ることに対応する時間を要します。しかし、GPU上で同時に実行される異なるワープは、別個の計算資源によって異なるワープが実行されるので

    4

    1答えて

    GEFORCE GTX 1080 ti(11GB)のtf-seq2seqパッケージを使用してNMTモデルをトレーニングしています。モデルのトレーニング中にnvidia-smiを実行すると、すべてのCPUコアがビジー状態でGPUの揮発性が常に25%未満であることが示されます。どうして? 私は私のGPUのすべての潜在能力を活用する場合はどのように見つけることができますか?