avx

    8

    1答えて

    HPC(FLOP)計算に適した強力なマシンのクラスタを構築する可能性を研究しているため、Intel Xeon modelsのトップを見直しており、Xeon E5モデルはAVXベクトル化をサポートしていません。 。一方、E7は、FLOP計算およびHPCとは無関係の最適化であると思われるSSE 4.2をサポートするが、むしろスピードキャラクタの計算に慣れている。 XML解析。 私はこの違いが正しいかど

    8

    3答えて

    私は2台のコンピュータで作業しています。 1つはAVXサポートなし、もう1つはAVXサポートなし。実行時に自分のCPUでサポートされている命令セットを見つけ、適切なコードパスを選択すると便利です。 私は、Agner Fogの提案に従ってCPUディスパッチャー(http://www.agner.org/optimize/#vectorclass)を作成しました。しかし、AVXをコンパイルしてVisu

    7

    2答えて

    期間2^128の変数__m128iが必要です。単調増加(カウンターのように)する必要はありませんが、各値を一度訪れてください。 私が考えることができる最も単純な例は、実際には128ビットのカウンタですが、SSEで実装するのが難しいことがわかりました。よりシンプルで高速なソリューションはありますか?

    14

    2答えて

    私はSSEとAVXのSIMD数学ライブラリ(好ましくはオープンソース)を探しています。私は、例えば8つの浮動小数点値を持つAVXレジスタvを持っていれば、sin(v)が8つの値のすべての罪を一度に返すことを望んでいます。 AMDには、いくつかのSIMD演算機能を備えたLibM http://developer.amd.com/tools/cpu-development/libm/がありますが、Li

    11

    3答えて

    ロード命令などVPGATHERDDなどが集まっているAVX2の組み込み関数のドキュメントを見て:ドキュメントから私には明らかではないが、何 __m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale); が算出したロードアドレスがあるされているかどうかを load_addr = base + ind

    2

    1答えて

    SSE(AVX)でintとfloatの両方を扱うときは、すべてのintを浮動小数点数に変換して浮動小数点数でのみ動作させることをお勧めしますか? それ以降はほんの少しのSIMD命令が必要なので、私たちが使用する必要があるのは、この変換を完全に保持する必要がある加算命令と比較命令(<, <=, ==)です。

    20

    3答えて

    インテルアドバンスト・ベクトル・エクステンションをするためのドット積の256ビット版(AVX)は、倍精度浮動小数点変数のための256ビット版(YMMレジスタ)には内積を提供しています。 「なぜ?」質問は別のフォーラム(here)とスタック オーバーフロー(here)で非常に簡単に扱われました。しかし、私が直面している問題は、この欠落した命令を他のAVX命令と効率的に置き換える方法です。 は 256

    25

    4答えて

    インテルSSEとAVX命令を学習するための良いC/C++チュートリアルや例はありますか? 例えば、Apple's developer site上でいくつかの良いものがあり

    4

    3答えて

    SSE(128bit)コールを使用してブルドーザーのOpteronで256bit FMA機能を使用するコードを修正しようとしています。私はこれらの呼び出しのための組み込み関数を見つけることができないようです。 このフォーラムにいくつかの質問は、(例:How to find the horizontal maximum in a 256-bit AVX vector)これらの組み込み関数を使用してい

    3

    1答えて

    __m128に4 intsをロードするためのgccの組み込み関数と、__m256(揃えられた/整列していない)に8個のintが入っていますか? unsigned intsはどうですか?