avx2

    0

    1答えて

    誰かがこの問題を助けることができたら嬉しいです。 私は(それがCである)このコードを持っている:私は見ることができないんだ "Error 'state': formal parameter with requested alignment of 32 won't be aligned" 何の問題:私はエラーを取得するよう、私は、これを構築することはできません #include <immintrin

    1

    1答えて

    ここで見つけたPRIMATEs暗号のビットスライス実装を作成しました:http://primates.ae/(私は120ビット版を作成しました)。 私はC言語のみで作成し、Intel Intrinsicsを使用して、AVX2命令セットを使用できるようにしました。 私はスライスされた実装を行ったので、速度を最適化してパフォーマンスを測定したいと思ったので、バイトごとのサイクルを計算します。このため、

    0

    1答えて

    私は、実数、虚数、実数、虚数など4つの単精度複素数を含む256ビットAVXレジスタを持っています。現在、256ビットレジスタ全体をメモリに書き戻して合計していますが、それは非効率的です。 AVX(またはAVX2)組み込み関数を使用して複素数水平和を実行するにはどうすればよいですか?組み込み関数を使って同等の効率で答えがない場合は、アセンブリを使って答えを受け取ります。 編集:レジスタにAR、AI、

    3

    1答えて

    こんにちは私はAVX2組み込み関数に奇妙な問題があります。私はint64_t *キャストで_m256iベクトルへのポインタを作成します。次に、ポインタの逆参照によって値を割り当てます。奇妙なことは、ベクトル変数の後ろにいくつかのcout文を実行しない限り、値がベクトル変数には見られないということです。ポインタとベクタは同じメモリアドレスを持ち、ポインタの逆参照は正しい値を生成しますが、ベクタは正し

    2

    1答えて

    どのようにして__m256値のすべてのビットに1の値を設定できますか? AVXまたはAVX2組み込み関数を使用していますか? すべてゼロを取得するには、_mm256_setzero_si256()を使用することができます。 すべてのものを得るために、私は現在_mm256_set1_epi64x(-1)を使用していますが、私はこれがすべてゼロの場合よりも遅くなると思われます。ここにメモリアクセスまた

    2

    1答えて

    4つの倍精度値を持つAVXレジスタがあります。今は、各要素ごとに個別に算術演算を行う必要があります。私がしなければならないことの半分化は以下の通りです。 Situation: a = [a4 a3 a2 a1] w = [ 0 0 0 w1] x = [ 0 0 0 x1] y = [ 0 0 0 y1] z = [ 0 0 0 z1] Des

    -1

    1答えて

    exp_ps()の実装をhttp://gruntthepeon.free.fr/ssemath/sse_mathfun.hまたはexp256_ps()からhttp://software-lisc.fbk.eu/avx_mathfun/avx_mathfun.hまで理解しようとしています。 定数cephes_exp_C2がどのように決定されるかを除いて、計算のほとんどすべてを理解しています。計算の精

    2

    1答えて

    AVXまたはAVX2 ISAでサポートされている文字列命令について調べましたが、SSE4.2のような256ビットの文字列比較命令が見つかりませんでした。それ以外の理由AVX/AVX2 ISAが256ビット文字列命令をサポートしないのはなぜですか? また、AVX2はunsigned shortのmulloを16ビット符号なし整数としてサポートしていないことがわかりましたが、理由はわかりません。 SS

    1

    2答えて

    私は、__m256iデータ型(インテルイントリンシックスのAVX命令で使用される)のデータを新しい__m256iにコピーすることに興味があります。 私はAVXレジスタからのデータをメモリに保存してからメモリからデータを新しいレジスタにロードできることを知っています。しかし、それをメモリに格納してから再びロードする操作を使用せずにレジスタを直接 "複製"できる、より簡単な方法(つまり専用の命令)があ