simd

    -1

    1答えて

    SandyBridgeプロセッサ(i7-3820)で一連のアプリケーションをベンチマークしています。 ベンチマークは2つの異なるバージョンで構成されています。 これらの2つのバージョンには同じコードが含まれていますが、最初のバージョンではsse/sse2のイントリンシックが使用され、2つ目のバージョンではavxのイントリンシックが使用されます。私はどちらかのx64またはx86上のSSE instr

    -1

    1答えて

    short型の出力配列に追加する必要がある長いバイト配列があります。ソリューションは、ここで見つけることができます:私は、この命令(加算のために2つの8要素の短い配列に1つの16要素のバイト配列を開梱するために必要な)「を解凍」のサポートを欠いmanaged SIMD を使用してやろうとしています SEE byte + short. 。 ここではサポートされている操作は、管理SIMDである:誰もが

    1

    1答えて

    場合: float sfx[64], delta = 9.9e-5; for(int i = 0; i < 64; i++) { if (sfx[i] < delta) { abq[i] = 1.0/delta; } else { abq[i] = 1.0/sfx[i]; } } 私はvbslq_f32を使用しようが、私はそのパラメータ

    1

    1答えて

    浮動小数点数型/ double4構造体のAVX-256/512コードを探しています。*、+、/、 - 、スカラーなどの基本演算をオーバーロードし、ベクトルからの高速なパフォーマンスを向上させます。 float4/double4を使用して記述されたコード内の操作OpenCLはこれらのデータ型を組み込み関数として持っていますが、XeonPhi上で実行されるC++コードでは、512ビットSIMDユニット

    2

    1答えて

    Cythonコード内でAES-NI命令を使用する方法はありますか? 私は見つけることができる最も近い誰かがSIMD命令にアクセスする方法です:Pythonのスレッドで https://groups.google.com/forum/#!msg/cython-users/nTnyI7A6sMc/a6_GnOOsLuQJ AES-NIが回答はなかった。 Python support for AES-N

    2

    2答えて

    短い背景: CUDAでは、同期が保証されている32スレッドのコンセプトがあります。私はこのSIMDの動作に依存して、一連の同期呼び出し(あるループの後に1つのスレッドが終了し、残りのスレッドが計算に使用する共有メモリに値を書き込む)の潜在的なオーバーヘッドを避けるために、 OpenCLでこの動作をイメージする方法はありますか。 Sub_Slices? According to Intel彼らはこの

    4

    1答えて

    SSEでは、パックされた整数を可変量シフトする方法は提供されていません(AVX以上の命令を使用できます)。あなたは一様なシフトしか行うことができません。私がベクトルの各整数に対して達成しようとしている結果はこれです。 i[0] = i[0] & 0b111111; i[1] = (i[1]>>6) & 0b111111; i[2] = (i[2]>>12) & 0b111111; i[3]

    1

    3答えて

    popcntとSSE4.2を使用して、CPUのアレイの近似平方根をより速く計算するにはどうすればよいですか? 入力は、浮動小数点配列に格納された正の整数(0〜約200,000の範囲)です。 出力は浮動小数点数の配列です。 どちらのアレイも、sseの正しいメモリ配置を持っています。 コードのみ1つのXMMレジスタを使用して下には、Linux上で動作し、ありがとうgcc -O3 code.cpp -l