avx2

0熱

1答えて

誰かがこの問題を助けることができたら嬉しいです。私は（それがCである）このコードを持っている：私は見ることができないんだ "Error 'state': formal parameter with requested alignment of 32 won't be aligned" 何の問題：私はエラーを取得するよう、私は、これを構築することはできません #include <immintrin

1熱

1答えて

QueryPerformanceCounter（）からサイクル/バイトを計算する

ここで見つけたPRIMATEs暗号のビットスライス実装を作成しました：http://primates.ae/（私は120ビット版を作成しました）。私はC言語のみで作成し、Intel Intrinsicsを使用して、AVX2命令セットを使用できるようにしました。私はスライスされた実装を行ったので、速度を最適化してパフォーマンスを測定したいと思ったので、バイトごとのサイクルを計算します。このため、

0熱

1答えて

AVX、単精度複素数の水平方向の合計？

私は、実数、虚数、実数、虚数など4つの単精度複素数を含む256ビットAVXレジスタを持っています。現在、256ビットレジスタ全体をメモリに書き戻して合計していますが、それは非効率的です。 AVX（またはAVX2）組み込み関数を使用して複素数水平和を実行するにはどうすればよいですか？組み込み関数を使って同等の効率で答えがない場合は、アセンブリを使って答えを受け取ります。編集：レジスタにAR、AI、

3熱

1答えて

int64_t内在のAVX2へのキャストポインタ_m256i

こんにちは私はAVX2組み込み関数に奇妙な問題があります。私はint64_t *キャストで_m256iベクトルへのポインタを作成します。次に、ポインタの逆参照によって値を割り当てます。奇妙なことは、ベクトル変数の後ろにいくつかのcout文を実行しない限り、値がベクトル変数には見られないということです。ポインタとベクタは同じメモリアドレスを持ち、ポインタの逆参照は正しい値を生成しますが、ベクタは正し

2熱

1答えて

すべての1ビットに__m256値を設定する最速の方法

どのようにして__m256値のすべてのビットに1の値を設定できますか？ AVXまたはAVX2組み込み関数を使用していますか？すべてゼロを取得するには、_mm256_setzero_si256()を使用することができます。すべてのものを得るために、私は現在_mm256_set1_epi64x(-1)を使用していますが、私はこれがすべてゼロの場合よりも遅くなると思われます。ここにメモリアクセスまた

2熱

1答えて

AVXレジスタの内容を無効にする

4つの倍精度値を持つAVXレジスタがあります。今は、各要素ごとに個別に算術演算を行う必要があります。私がしなければならないことの半分化は以下の通りです。 Situation: a = [a4 a3 a2 a1] w = [ 0 0 0 w1] x = [ 0 0 0 x1] y = [ 0 0 0 y1] z = [ 0 0 0 z1] Des

-1熱

1答えて

exp（）関数の数値計算における一義義者

exp_ps()の実装をhttp://gruntthepeon.free.fr/ssemath/sse_mathfun.hまたはexp256_ps()からhttp://software-lisc.fbk.eu/avx_mathfun/avx_mathfun.hまで理解しようとしています。定数cephes_exp_C2がどのように決定されるかを除いて、計算のほとんどすべてを理解しています。計算の精

2熱

1答えて

AVXまたはAVX2は256ビットの文字列命令をサポートしていますか？

AVXまたはAVX2 ISAでサポートされている文字列命令について調べましたが、SSE4.2のような256ビットの文字列比較命令が見つかりませんでした。それ以外の理由AVX/AVX2 ISAが256ビット文字列命令をサポートしないのはなぜですか？また、AVX2はunsigned shortのmulloを16ビット符号なし整数としてサポートしていないことがわかりましたが、理由はわかりません。 SS

1熱

2答えて

__m256iデータ型の複製

私は、__m256iデータ型（インテルイントリンシックスのAVX命令で使用される）のデータを新しい__m256iにコピーすることに興味があります。私はAVXレジスタからのデータをメモリに保存してからメモリからデータを新しいレジスタにロードできることを知っています。しかし、それをメモリに格納してから再びロードする操作を使用せずにレジスタを直接 "複製"できる、より簡単な方法（つまり専用の命令）があ