sse

    5

    1答えて

    平均250msで私のデュアルコア、3 GHz Intelプロセッサで動作するアルゴリズムがあり、それを最適化しようとしています。現在、std::nth_elementコールは、std::vectorで約6,000回呼び出され、150〜300要素の平均50msを要します。私は現在、ベクトルから2つのdoubleを検索し、単純な<の比較を行う、私が使用するコンパレータを最適化するのに少し時間を費やしま

    5

    1答えて

    __m256iレジスタから64ビットを抽出しようとしています。私の現在の抽出機能の 例: byte 31 16 15 0 byte_result_vec 000D 000C 000B 000A 000H 000G 000F 000E _mm256_packs_epi32 -> 0D0C 0B0A 0D0C 0B0A 0H0G 0F0E 0H0G 0F0E _mm

    5

    1答えて

    (Intel SSE組み込み関数で使用される)データ型__m128の変数の値を直接GDBに出力する方法はありますか?コマンドprint $myVariableはintとfloatでは正常に動作しますが、__m128では正常に動作しません。 ご協力いただきありがとうございます。

    6

    2答えて

    残念ながら私はAVX命令に問題があるように思われるAMDのの群衆追いのCPU、持っている: メモリは256ビットのAVXレジスタに書き込みが非常に遅いです。測定されたスループットは、以前のモデル(Bulldozer)よりも5〜6倍遅く、2回の128ビット書き込みよりも8〜9倍遅くなっています。 私の経験上、mm256の組み込み関数がmm128よりもはるかに遅いことがわかりました。私はそれが上記の理

    8

    2答えて

    いくつかの考えた後、私はSSEを使用して2つの四元数を掛けるために、次のコードを思い付いた: #include <pmmintrin.h> /* SSE3 intrinsics */ /* multiplication of two quaternions (x, y, z, w) x (a, b, c, d) */ __m128 _mm_cross4_ps(__m128 xyzw, __

    5

    1答えて

    したがって、AVXにはimmintrin.hという機能があり、2つの__m128i値の連結を1つの__m256i値に格納できるようにする必要があります。これがなぜ起こるか私は本当に理解していない error: incompatible types when assigning to type ‘__m256i’ from type ‘int’ : __m256i as[2]; __m128i

    7

    2答えて

    5年前からMono.SIMD(またはMonoの中の一般的なSIMDサポート)が開発されているかどうか知りたいです。私は個人的には、これがC#のスピードを向上させるための大きな一歩だと思います。しかし、私はしばらくそれを使用して、私はMono.SIMDが多くの機能が不足しているとして遅れていると感じています。 私が直面してる問題のいくつかが含まれます: これまでSSE4.1以来、1回の操作で実現する

    5

    1答えて

    SSE組み込み関数を使用して配列の平均と分散を計算しています。基本的に、これは次のプログラムに示すことができる値とその乗の合計である:私は、デバッグモードでプログラムをコンパイルして実行すると int main(int argc, const char* argv[]) { union u { __m128 m; float f[4]; }

    6

    1答えて

    MSVC 2013更新4/W究極 私はこの一見単純な例で 情報C5002このエラーを取得していますなぜ理解していない:ループの理由によりベクトル化されません「1200」 1200ループが含まれているループ運搬のデータ依存 私は見ていないです どのようリットルの繰り返しお互いに干渉する可能性があります。 __declspec(align(16)) class PhysicsSystem { pu

    5

    1答えて

    イメージ内に単一のRGBピクセルを格納する構造体を作成しています。 struct Pixel { // color values range from 0.0 to 1.0 float r, g, b; }__attribute__((aligned(16)); 私はなど、乗算、私は一度にすべての3つのカラーチャンネルの操作を行うことができるこの方法を追加するようなもの