。私が見ていることは、SSE命令を実行するために必要なロードとストアが頻繁に発生することは、ベクトル計算のために得られる利得を無効にすることです。ですから、誰かが私にSSEコードの例を教えてもらえますか?は、通常の手順をアウトパフォームするx86-64のSSE命令(ベクトル命令)は、通常の指示を上回るん
私は別に、各パラメータを渡していますので、その多分、次のように...
__m128i a = _mm_set_epi32(pa[0], pa[1], pa[2], pa[3]);
__m128i b = _mm_set_epi32(pb[0], pb[1], pb[2], pb[3]);
__m128i res = _mm_add_epi32(a, b);
for(i = 0; i < 4; i++)
po[i] = res.m128i_i32[i];
が、私は一度にすべての4つの整数を渡すことができる方法ではありません、私は、全体の128のバイトを渡す意味します一度にpa
のですか?そして、一度にres.m128i_i32
をpo
に割り当てますか?
、比。 – Mysticial
ええ、あなたは間違いなくそのような '_mm_set_epi32()'を使いたくありません。 '_mm_load_si128()'を使用してください。また、データを整列できない場合は、パフォーマンスペナルティで '_mm_loadu_si128()'を使用することができます。 – Mysticial
データを整列しますか?それどういう意味? – pythonic