gpgpu

    0

    2答えて

    私は、1を使って3D配列の形でHLSLに一連の整数を送る必要があります。私は数日の間これをやろうとしましたが、何の利益もありません。私はお互いにバッファーをパックしようとしましたが(StructuredBuffer<StructuredBuffer<StructuredBuffer<int>>>)、それは単に動作しません。そして、私はこの事をサイズ変更可能にする必要があるので、配列をstructに

    0

    1答えて

    3x3行列と360x360行列の間の行列乗算をしようとしています。小さな行列(3x3)は、大きな行列の最初の(3x3)ブロックなどで操作されます。したがって、私は小さな行列を定数にして、それをより大きな行列にスライドさせたいと思います。 私の小さなマトリックスを共有メモリの一部として保存し、私の大きなマトリックスを3x3に分けてグローバルにすることはできますか? 小さな行列をホストから直接共有する

    -5

    1答えて

    私はユニティを使用しています、そして、私はバイト配列をHLSLを使ってGPUに送りたいと思います。私はByteAddressBufferについて知っていますが、私はそれをどのように使用するか考えていません。私はちょうど "バイト"をGPUに送る方法を知りたがっています。私は計算シェーダにStructuredBuffer<byte>を持っています。

    2

    1答えて

    トピックの理解を深めるために、MATLABでニューラルネットワークを実装しました。 GPUでコードを実行したかったので、すべてのマトリックスをgpuArray()で初期化しましたが、パフォーマンスは向上しませんでした。さらに、GPUがCPUより遅くなることがあります。私はすでにarrayfun、pagefunのような機能を使うことを学んだ。 バックプロンプトでは、すべてのレイヤーのデルタエラーを後

    17

    1答えて

    私はnvidia-smi -l 1が1秒ごとにGPUを使用することを知っています(以下同様)。しかし、私はVolatile GPU-Utilが実際に意味するものについての説明を感謝します。これは、総SM以上の使用済みSMの数、または占有率などですか? +-------------------------------------------------------------------------

    1

    1答えて

    メタルのnサイズのベクトルにノルムまたは2乗の長さ関数を書き込もうとしています。これを行うために、私はすべてのスレッドが各要素を正方形にし、すべての要素を合計するために1つのスレッドを選択することを計画しました。 #include <metal_stdlib> #include <metal_compute> using namespace metal; kernel void lengt

    1

    1答えて

    私は実際にManagedCUDAを使用しているC#アプリケーションでGPU仕様を照会しようとしています。 ドキュメントを見て、 "CudaDeviceProperties"という名前のクラスがあり、GPUから日付を格納するための変数がたくさんあることがわかりました。 しかし、私はそれをどのように使用するのか分かりません。私は次のような変数を作成しようとしました: CudaDevicePropert

    0

    2答えて

    私はGPGPUプログラミングにはかなり新しいです。私は多くの同期が必要なアルゴリズムを実装しようとしているので、1つのワークグループ(グローバルサイズとローカルサイズが同じ値を持つ)を使用しています 問題が残っています:問題のサイズが超過するまで私はaddedValue [0]をその[123 123のように切り抜いたカーネルの33 instanctionから値、及び65から、別の値を(有しているこ

    1

    1答えて

    OpenCLを初めて使用しています。 現在、私は大きな1次元配列に取り組んでいます。アレイのサイズは約800万です。以下は、私のコードの一部です:しかし、問題は私が(数える場合の真のブランチに行くことができたということです __kernel void gpuScoring(__global int *Counts, __global int *value, int width, int heigh

    0

    2答えて

    私はリアルタイムで1億+データポイントをヒートマップとしてフィルタリングしレンダリングする方法を見つけようとしています。 (x、y)座標に加えて各ポイントには、データセットをフィルタリングするためにユーザーが動的に選択できる固定の属性セット(int、date、ビットフラグ)があります。 このタスクの全部または一部をGPUで高速化することは可能でしょうか?