sse

    8

    1答えて

    sse組み込み関数を使用してfloatベクトルの合計要素(削減)を取得するにはどうすればよいですか? シンプルなシリアルコード:通常 void(float *input, float &result, unsigned int NumElems) { result = 0; for(auto i=0; i<NumElems; ++i) result += inpu

    6

    2答えて

    インストールされているバージョンのnumpyがSSE/SSE2命令セットでコンパイルされているかどうかを確認するにはどうすればよいですか? numpyのいくつかの部分がBLASを使用していることを知っていますが、BLASもチェックする方法はありますか?これはnumpyのはに対してコンパイルされたものに関するすべての情報を出力します import numpy.distutils.system_inf

    7

    1答えて

    私は本当に(本当に)高速Sobel operatorを実装したいと思います。私の友人と私は書きました(ソースはhereです)。以下は、私がこれまでに考えていることです... まず、8ビットの符号なし整数配列にイメージをグレースケールの画像として格納します。 実際のソーベルフィルタを書くには、ピクセルごとにGxとGyを計算する必要があります。これらの数値はそれぞれ、原点の次​​の6ピクセルのおかげで

    7

    2答えて

    intバッファから128ビットのintベクトルレジスタを逆順にロードするSSE2命令はありますか?

    5

    1答えて

    私は同じことを行うことになっている三つの機能a()、b()とc()ている:私はこのコードをコンパイルすると typedef float Builtin __attribute__ ((vector_size (16))); typedef struct { float values[4]; } Struct; typedef union { Builtin b;

    5

    1答えて

    __m128変数が4つのSP値を保持していて、最小値が必要な場合、組み込み関数があるかどうか、値間の単純な線形比較以外の値があるとしますか? 右私の解決策は、(入力__m128変数がxであると仮定)は、次のことを知っている:かなり恐ろしいですが、それが働いている x = _mm_min_ps(x, (__m128)_mm_srli_si128((__m128i)x, 4)); min = _mm

    12

    1答えて

    浮動小数点値の除算に_mm_div_psがあります。整数乗算に_mm_mullo_epi16があります。しかし、整数除算(16ビット値)のための何かがありますか?どのように私はそのような分裂を行うことができる?

    9

    3答えて

    C/C++でのガウス畳み込み関数の高速メモリ転置アルゴリズムが必要です。私が今やっていることは convolute_1D transpose convolute_1D transpose それは、この方法では、フィルタサイズが大きい(または、私が予想よりも大きい)、または転置は畳み込みよりも長い畳み込みがかかる1920×1080マトリクス(例えばかかりなければならないことが判明しています

    6

    2答えて

    2つの64ビット整数に別の2つの64ビット整数を乗算するにはどうすればよいですか? 私はそれを行うことができる指示を見つけませんでした。

    13

    1答えて

    同じ長さ(たとえば、m)のすべての文字列、同じ長さの別の文字列sがあります。n(8ビット)の文字列があります。 sから他の各文字列までのハミング距離を計算する必要があります。プレーンCのようなもの: unsigned char strings[n][m]; unsigned char s[m]; int distances[n]; for(i=0; i<n; i++) { int