sse

8熱

1答えて

sse組み込み関数を使用してfloatベクトルの合計要素（削減）を取得するにはどうすればよいですか？シンプルなシリアルコード：通常 void(float *input, float &result, unsigned int NumElems) { result = 0; for(auto i=0; i<NumElems; ++i) result += inpu

6熱

2答えて

インストールされているnumpyがSSE/SSE2命令セットでコンパイルされているかどうかを確認する方法はありますか？

インストールされているバージョンのnumpyがSSE/SSE2命令セットでコンパイルされているかどうかを確認するにはどうすればよいですか？ numpyのいくつかの部分がBLASを使用していることを知っていますが、BLASもチェックする方法はありますか？これはnumpyのはに対してコンパイルされたものに関するすべての情報を出力します import numpy.distutils.system_inf

7熱

1答えて

C（SIMD）の画像とソーベルフィルタ最適化の高速移転

私は本当に（本当に）高速Sobel operatorを実装したいと思います。私の友人と私は書きました（ソースはhereです）。以下は、私がこれまでに考えていることです... まず、8ビットの符号なし整数配列にイメージをグレースケールの画像として格納します。実際のソーベルフィルタを書くには、ピクセルごとにGxとGyを計算する必要があります。これらの数値はそれぞれ、原点の次の6ピクセルのおかげで

7熱

2答えて

逆順の整数をロードするSSE2命令

intバッファから128ビットのintベクトルレジスタを逆順にロードするSSE2命令はありますか？

5熱

1答えて

GCC組み込みベクトル化タイプとC配列の違いは何ですか？

私は同じことを行うことになっている三つの機能a()、b()とc()ている：私はこのコードをコンパイルすると typedef float Builtin __attribute__ ((vector_size (16))); typedef struct { float values[4]; } Struct; typedef union { Builtin b;

5熱

1答えて

__m128のSP値が最小値

__m128変数が4つのSP値を保持していて、最小値が必要な場合、組み込み関数があるかどうか、値間の単純な線形比較以外の値があるとしますか？右私の解決策は、（入力__m128変数がxであると仮定）は、次のことを知っている：かなり恐ろしいですが、それが働いている x = _mm_min_ps(x, (__m128)_mm_srli_si128((__m128i)x, 4)); min = _mm

12熱

1答えて

SSE整数除算？

浮動小数点値の除算に_mm_div_psがあります。整数乗算に_mm_mullo_epi16があります。しかし、整数除算（16ビット値）のための何かがありますか？どのように私はそのような分裂を行うことができる？

9熱

3答えて

SSE、AVX、およびOpenMPでの高速メモリ転置

C/C++でのガウス畳み込み関数の高速メモリ転置アルゴリズムが必要です。私が今やっていることは convolute_1D transpose convolute_1D transpose それは、この方法では、フィルタサイズが大きい（または、私が予想よりも大きい）、または転置は畳み込みよりも長い畳み込みがかかる1920×1080マトリクス（例えばかかりなければならないことが判明しています

6熱

2答えて

2 64ビット整数のSSE乗算

2つの64ビット整数に別の2つの64ビット整数を乗算するにはどうすればよいですか？私はそれを行うことができる指示を見つけませんでした。

13熱

1答えて

SSEで複数の文字列へのハミング距離を計算する

同じ長さ（たとえば、m）のすべての文字列、同じ長さの別の文字列sがあります。n（8ビット）の文字列があります。 sから他の各文字列までのハミング距離を計算する必要があります。プレーンCのようなもの： unsigned char strings[n][m]; unsigned char s[m]; int distances[n]; for(i=0; i<n; i++) { int