sse4

    4

    1答えて

    私は、Visual C++ 2010のOpenCVでBRIEF記述子を使用して、2つの画像のポイントを一致させています。 「簡単な記述は、多くの場合、特定の提供、現代のCPU上で非常に高速に行うことができるハミング距離を、使用しています。簡単な記述子についてthe paperで は、物事をスピードアップすることが可能であることが書かれています最新のSSE命令セットの場合のように、XORまたはビット

    14

    2答えて

    これは初めてのSSEイントリンシックでの作業です。私はインテルSSEイントリンシック(SSE4.2まで)を使用して、シンプルなコードをより高速なバージョンに変換しようとしています。私はいくつかのエラーに遭遇しているようです。 コードのスカラーバージョンは次のとおりです(単純マトリクス乗算) void mm(int n, double *A, double *B, double *C)

    0

    1答えて

    SSEとテーブルを比較するcharで2つの文字列charを取得する方法Cでのintrinsicsを使用するには? _mm_cmpistrm重要なビットのマスクを返します。これは、テーブル処理結果を比較するcharによるcharの集約関数です。 __m128i _mm_cmpistrm ( __m128i a, __m128i b, const int mode );

    6

    1答えて

    by Intel [pdf]のアルゴリズムに従ってpixmanに高速x888 - > 565ピクセル変換関数を実装しています。彼らのコードは568に変換したいのですが、x888 - > 555に変換します。残念ながら、565への変換は高いビットがセットされていることを意味します。つまり、符号付き飽和パック命令は使用できません。符号なしパック命令であるpackusdwは、SSE4.1まで追加されませ

    0

    1答えて

    C++でコード化された文字列一致アルゴリズムでSSE4.2命令を使用しようとしています。 私はこれらの指示を使用してより小さいパターンにマッチさせる方法を理解しておらず、誰かがそれを助けてくれることを望んでいました。 コード例では、パックされた文字列「i am an antelope」内のパターン「ant」を検索しようとしています。私は、SSE4.2命令を含めることnmmintrin.hための#i

    1

    1答えて

    私はすでにtensorflow-gpuをインストールしていますが、正常に動作しています。 以下のシステム構成では、AVXとSSE4.2-1.0命令セットを利用するために、ソースからtensorflow-gpuをインストールしたいと考えています。 CPU:デュアルインテル®Xeon®E5 2670、Sandy Bridgeの-EP/EX、リビジョンC2、取扱説明書MMX、SSE、SSE2、SSE3、

    2

    1答えて

    パックされたバイトがxmm0である場合、xmm1に各バイトの (すなわち最高位の)ビットを抽出する効率的な方法はありますか?言い換えれば、 は、パックされたバイトごとに論理ANDを0x80で計算したいと考えています。例えば :あなたはちょうどあなたが左、右とシフトしたくないビットをオフにノックすることはできませんので xmm0: 0xff 0xef 0x80 0x7f 0x01 ... xmm1

    2

    1答えて

    AVXまたはAVX2 ISAでサポートされている文字列命令について調べましたが、SSE4.2のような256ビットの文字列比較命令が見つかりませんでした。それ以外の理由AVX/AVX2 ISAが256ビット文字列命令をサポートしないのはなぜですか? また、AVX2はunsigned shortのmulloを16ビット符号なし整数としてサポートしていないことがわかりましたが、理由はわかりません。 SS

    2

    3答えて

    1つのメモリ位置から別のメモリ位置に奇数番号のバイトをすべてコピーする必要があります。すなわち、第1、第3、第5などをコピーする。具体的には、2000文字/属性ワードを含むテキストエリア0xB8000からコピーしている。私は、属性のバイトをスキップして、文字で終了したい。次のコードは正常に動作します: mov eax, ecx ; eax = number of bytes (1 to