ptx

    0

    1答えて

    %laneidが使われているのを見て、私はいくつかのSASSを試していました。 (そのことについて申し訳ありません - あなたはあなたが誰であるか知っている)誰かの人生の分を無駄に失言した後、私は今、次があります。 CUDAコード:(SM 6.1用) __forceinline__ __device__ unsigned lane_id() { unsigned ret; a

    1

    1答えて

    CUDA SDKのptxjitサンプルをGPUデバイスとの相互作用の基礎として使用しようとしています。 私はインストルメンテーションコードをコンパイルし、CUDA機能2.0を備えたGeforce GT440でPTXモジュールをロードして実行するようにデバイスを制御しました。 CUDA機能5.0を搭載したGeforce 830Mを搭載したラップトップ(バンブルビーを使用したラップトップコンピュータ)

    0

    1答えて

    我々は例えば、私たちの一般C/C++ CUDAコードでインラインPTXアセンブリを書く: __device__ __inline__ uint32_t bfind(uint32_t val) { uint32_t ret; asm ("bfind.u32 %0, %1;" : "=r"(ret): "r"(val)); return ret; } 我々は例えば

    3

    1答えて

    gcc 7.1がリリースされたので、openmp 4.5用にgccを設定し、Nvidia PTX GPGPUにオフロードすることができます。それは、リリースノート(約)で彼らが言うことです。 私の質問は、nvidiaデバイスをターゲットにするためにopenmp 4.5をコンパイルするときにこの設定を有効にする特別なフラグがありますか?

    0

    1答えて

    本当にシンプルなOpenCLコードを作成し、Tesla K40m GPUで実行してGFlopsを測定しようとしました。ここで私が書いたコードは次のとおりです。 __kernel void test(__global float *GIn, __global float *GOut, int M, int N, int P) { int X = get_global_id(0);

    -2

    1答えて

    私はPTX ISA specification(PTX v2の場合)内のStore instruction caching modes tableを見ています。 .wb:これは、4つのキャッシュ・モードに関する詳細を提供するキャッシュライトバック全てコヒーレントレベル .cg:グローバルレベル(L2キャッシュではなく、L1)でのキャッシュ .cs:キャッシュストリーミング、1回アクセス可能 .wt

    0

    1答えて

    A CUDAソースファイルがコマンドsm_XXはsm_20、sm_30として置き換えることができるclang -Xclang -I$LIBCLC/include/generic -I$LIBCLC/include/ptx -Dcl_clang_storage_class_specifiers -O3 cudaFile.cu -S -o ptxOutputFile.ptx --cuda-gpu-ar

    0

    1答えて

    CUDAドキュメンテーション、セクション1.2.3 Incorrect optimizationは、こう述べています。 コンパイラはasm()文は出力オペランドを変更する以外は副作用がないことを前提としています。 asmはPTXの生成時に削除または移動されていないことを確認するために、あなたはvolatileキーワード、例えば使用する必要があります。私のインラインPTXが実際にレジスタの外に何の副

    0

    1答えて

    私は最近、並列コードの高速化を目指してP100 GPUを購入しましたが、MATLABコードをCUDAコードに変換する方法を決定する助けが必要です(私はMATLABでは平文gpuarraysから移動しました) 。私は.ptxのカーネルとMEXのファイルを実験しており、両方でいくつかのロードブロッキングを実行しました。 パラレルコードには、要素累乗、要素単位乗算、FFTおよびIFFT呼び出しがあります

    0

    1答えて

    NVIDIA websiteから、sm_10のサポートが削除されたPTX ISAバージョンに関するヒントは見つかりませんでした。私の実験から、sm_10のサポートが削除されたのはPTX ISA 4.1であるという意識があります。あるいは、他の意味では、4.0はsm_10をサポートする最新のPTX ISAバージョンです。これは正しいです?