gpgpu

    2

    2答えて

    私はTensorFlowで画像を分類しようとしています。 example code on GitHubで はこのようなものです:今 predictions = sess.run(softmax_tensor, {'DecodeJpeg/contents:0': image_data}) 私は私のGPU上での分類を計算したいと思いますので、私は、一度に複数の画像を分類するための解決策を探していて

    0

    1答えて

    私はOpenCL Khronosの本、GATechのチュートリアル、NYUのチュートリアルなど、いくつかのリソースを使いました。しかし、私はまだ完全に理解していません。 カーネルとプログラムオブジェクトの違いは何ですか? は、これまでのところ最良の説明は私のために、このですが、私は完全に理解し、これは十分ではありません。 プログラムオブジェクトを:プログラムオブジェクトは、いくつかのソース(潜在的

    1

    1答えて

    According to Wikipedia, the Iris Graphics 6100 has 48 execution units (EU) with each having a pair of 128 bit FPUs.各EUは8つの浮動小数点型のベクトルをサポートする必要があります。デバイスがGPUの優先ベクトル幅のためにポーリングされたとき、すべての型はdoubleを除いて1として出

    0

    1答えて

    のメンバーではありませんraw_ptr私はスラスト例を使用して私の最初のVexCLプログラムをコンパイルしようとしていると私は、次のエラーメッセージが出ます: raw_ptrはVEX」のメンバではありません::バックエンドを:: OpenCLのは::ここdevice_vector」 は、私は十分に言語を理解していないコード vex::Context ctx(vex::Filter::Env &&

    2

    1答えて

    boost :: computeでストリームコンパクションを行う方法は? など。配列内の特定の要素に対してのみ重い操作を実行したい場合に使用します。まず、あなたが操作を実行する対象の要素に対応するものとマスク配列を生成します。 mask = [0 0 0 1 1 0 1 0 1] 次に取得するためにマスク配列の排他的スキャン(接頭和)を実行します。 scan = [0 0 0 0 1 2 2

    0

    1答えて

    前のトピックで、CUDA行列ベクトルの製品に関するいくつかのコードを見つけました: Matrix-vector multiplication in CUDA: benchmarking & performance 著者がdA(行列)用に共有メモリを使用しなかった理由は何ですか? なぜ、列の主な順序が行の主な順序よりも速いのですか?ここで はコードです: template<typename T>

    0

    1答えて

    カーネルごとにwarp_execution_efficiencyを得ることができますが、私のプログラムのwarp_execution_効率をどのように得ることができますか?

    1

    1答えて

    私はkhronos.orgでPipe API pagesを通じてOpenCLの2.xのパイプAPIおよび有鉛のthis descriptionを読みました。私は、OpenCLでのみ利用できるこの素晴らしい機能のCUDAでの仕事に嫉妬を感じました(そして、CUDAの機能はOpenCLによって正しく組み込まれていませんが、それは別の問題です)。 CUDAにはパイプ機構がありません」しかし、その後、私は

    0

    1答えて

    次のコードでは、サイズ200x200の3つのランダム行列に対して関数cublasSetMatrixを使用しています。 0.000131 - - 0.000141実際 、毎回 0.121849:このコードの出力は次のようなもの clock_t t1,t2,t3,t4; int m =200,n = 200; float * bold1 = new float [m*n]; float *