avx

8熱

1答えて

HPC（FLOP）計算に適した強力なマシンのクラスタを構築する可能性を研究しているため、Intel Xeon modelsのトップを見直しており、Xeon E5モデルはAVXベクトル化をサポートしていません。。一方、E7は、FLOP計算およびHPCとは無関係の最適化であると思われるSSE 4.2をサポートするが、むしろスピードキャラクタの計算に慣れている。 XML解析。私はこの違いが正しいかど

8熱

3答えて

AVXとSSE用のビジュアルスタジオ用のcpuディスパッチャ

私は2台のコンピュータで作業しています。 1つはAVXサポートなし、もう1つはAVXサポートなし。実行時に自分のCPUでサポートされている命令セットを見つけ、適切なコードパスを選択すると便利です。私は、Agner Fogの提案に従ってCPUディスパッチャー（http://www.agner.org/optimize/#vectorclass）を作成しました。しかし、AVXをコンパイルしてVisu

7熱

2答えて

128ビットSSEカウンタ？

期間2^128の変数__m128iが必要です。単調増加（カウンターのように）する必要はありませんが、各値を一度訪れてください。私が考えることができる最も単純な例は、実際には128ビットのカウンタですが、SSEで実装するのが難しいことがわかりました。よりシンプルで高速なソリューションはありますか？

14熱

2答えて

SSEとAVXのSIMD数学ライブラリ

私はSSEとAVXのSIMD数学ライブラリ（好ましくはオープンソース）を探しています。私は、例えば8つの浮動小数点値を持つAVXレジスタvを持っていれば、sin（v）が8つの値のすべての罪を一度に返すことを望んでいます。 AMDには、いくつかのSIMD演算機能を備えたLibM http://developer.amd.com/tools/cpu-development/libm/がありますが、Li

11熱

3答えて

AVX2は、命令を集める - ロードアドレス計算

ロード命令などVPGATHERDDなどが集まっているAVX2の組み込み関数のドキュメントを見て：ドキュメントから私には明らかではないが、何 __m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale); が算出したロードアドレスがあるされているかどうかを load_addr = base + ind

2熱

1答えて

SSE ints vs. floats実践

SSE（AVX）でintとfloatの両方を扱うときは、すべてのintを浮動小数点数に変換して浮動小数点数でのみ動作させることをお勧めしますか？それ以降はほんの少しのSIMD命令が必要なので、私たちが使用する必要があるのは、この変換を完全に保持する必要がある加算命令と比較命令（<, <=, ==）です。

20熱

3答えて

インテルAVX：倍精度浮動小数点変数

インテルアドバンスト・ベクトル・エクステンションをするためのドット積の256ビット版（AVX）は、倍精度浮動小数点変数のための256ビット版（YMMレジスタ）には内積を提供しています。「なぜ？」質問は別のフォーラム（here）とスタックオーバーフロー（here）で非常に簡単に扱われました。しかし、私が直面している問題は、この欠落した命令を他のAVX命令と効率的に置き換える方法です。は 256

25熱

4答えて

インテルSSEとAVXの例とチュートリアル

インテルSSEとAVX命令を学習するための良いC/C++チュートリアルや例はありますか？例えば、Apple's developer site上でいくつかの良いものがあり

4熱

3答えて

AMD FMA 4組み込み関数のリファレンスはどこにありますか？

SSE（128bit）コールを使用してブルドーザーのOpteronで256bit FMA機能を使用するコードを修正しようとしています。私はこれらの呼び出しのための組み込み関数を見つけることができないようです。このフォーラムにいくつかの質問は、（例：How to find the horizontal maximum in a 256-bit AVX vector）これらの組み込み関数を使用してい

3熱

1答えて

SSEが__m128にSSEをロードする

__m128に4 intsをロードするためのgccの組み込み関数と、__m256（揃えられた/整列していない）に8個のintが入っていますか？ unsigned intsはどうですか？