avx

    3

    1答えて

    私はメモリに32バイト整列して格納された7つの__m256値からなる構造体を持っています。 typedef struct { __m256 xl,xh; __m256 yl,yh; __m256 zl,zh; __m256i co; } bloxset8_t; Iは、動的に割り当てられたデータのためposix_memalign()関数を使用し

    4

    1答えて

    私はオンラインで見つかった例に基づいて_mm256_lddqu_si256を使用していました。後で私は_mm256_loadu_si256を発見しました。インテルイントリンシクスのガイドには、キャッシュラインの境界を越えたときに、lddquのバージョンが優れていると記載されています。 loaduのメリットは何ですか?一般に、これらの機能はどのように異なっていますか?

    2

    1答えて

    配列ベースのコードを並列化するために、インテル®AVXイントリンシクス関数を使用して大規模配列を並列処理する方法を解明しようとしています。 私は、256ビットのAVXベクトルが最大8並列32ビット整数/ 32ビット浮動小数点数または最大4並列64ビット倍精度をサポートすることを読みました。フロート部は私に何の問題を与えていないと正常に動作しますが、整数AVX機能は私に頭痛を与えているが、私は証明す

    0

    1答えて

    conda-forgeチャンネルのcondaを使用してdlibをインストールしました。それがAVXサポートで構築されているかどうかを知ることは可能でしょうか?

    2

    1答えて

    私はAVX(ARM NEONから来たもの)の新人であり、AVXには多くのU8算術が欠けていることに驚いていました。 は、そのため私は、インライン関数でmax(a,b)-min(a,b)に頼らなければならなかった: static inline __m256i _mm256_abd_epu8(__m256i a, __m256i b) { return _mm256_sub_epi8(_m

    1

    1答えて

    私はAVXがSSEより約1.5倍速くなると予想していました。 Intel Core CPU(Broadwell)では、3つのアレイ(3つのアレイ* 16384要素* 4バイト/要素= 196608バイト)がL2キャッシュ(256KB)に収まる必要があります。 使用するはずの特別なコンパイラ指令またはフラグはありますか? コンパイラバージョン $ clang --version Apple LLV

    3

    1答えて

    Intelの組み込み関数を使用して、複数の単精度演算を並列に実行するアルゴリズムを作成しました。私のアルゴリズムの各繰り返しの結果は、単一の256ビットベクトル(__m256)の非ゼロエントリの数です。例えば :反復の結果は、4 ベクトル内の数の非ゼロのエントリをカウントするための最速の方法は何である 00000000 FFFFFFFF 00000000 00000000 00000000 FFF

    0

    1答えて

    SSE/AVXアセンブリ命令をテストするためにX64dbgを使用して、コードを記述する前にその動作をよりよく理解しています。私はvmovapd、vbroadcastsd、vsubpd、およびvaddpdの指示を問題なくこの方法でテストすることができました。しかし、 VMULPD ymm2, ymm1, ymm0 私はYMM1でYMM0を乗算しようとしている、とYMM2に結果を格納: YMM0:

    4

    1答えて

    私はしばしば積分画像を計算する必要があります。これは単純なアルゴリズムです: uint32_t void integral_sum(const uint8_t * src, size_t src_stride, size_t width, size_t height, uint32_t * sum, size_t sum_stride) { memset(sum, 0, (width

    0

    1答えて

    gcc7またはclangを使用したIntelのAVX拡張機能の256ビットベクトルデータ型(__m256d)をコンパイルできません。 128ビットのベクトルをコンパイルして使用できます(-mavxフラグなし)。しかし、avxベクトルを試してすぐに、アセンブラのコマンド定義が見つからないか(GCC7)、リンカエラー(clang)があります。私はすべてのコンパイラやパッケージをインストールするためにポ