simd

    -2

    1答えて

    CでのARMネオンコンパイラの利点を利用して、画像のフィルタの畳み込みを最適化するガイドがありますか?私はすでにこれを従来のC言語で実装していますが、NEONをサポートしてARM上でより高速な画像処理を行うためにコードを時間最適化する必要があります。インターネットで利用可能なリソースは、CでNEONを使用してARMでアルゴリズムを実装する場合、非常に制限されます。 3x3フィルタに画像をコンボリュ

    4

    1答えて

    私はオンラインで見つかった例に基づいて_mm256_lddqu_si256を使用していました。後で私は_mm256_loadu_si256を発見しました。インテルイントリンシクスのガイドには、キャッシュラインの境界を越えたときに、lddquのバージョンが優れていると記載されています。 loaduのメリットは何ですか?一般に、これらの機能はどのように異なっていますか?

    2

    1答えて

    配列ベースのコードを並列化するために、インテル®AVXイントリンシクス関数を使用して大規模配列を並列処理する方法を解明しようとしています。 私は、256ビットのAVXベクトルが最大8並列32ビット整数/ 32ビット浮動小数点数または最大4並列64ビット倍精度をサポートすることを読みました。フロート部は私に何の問題を与えていないと正常に動作しますが、整数AVX機能は私に頭痛を与えているが、私は証明す

    0

    1答えて

    SSE組み込み関数を使用してコードを最適化しようとしています。ドキュメントを読んだ後、浮動小数点変数のためにSSEに__m128データ型があり、4つの浮動小数点数を格納できることがわかりました。 SSE2には2つの浮動小数点数しか格納できない__m128dがありますか?これらの変数の違いは何ですか? SSE2はSSEより高速であるとは思われませんか?

    1

    1答えて

    地球の海上を何千もの船が移動し、長時間にわたって相互作用する数千の船舶が関与する新しいシミュレーションをスケッチしています。さまざまな環境条件のための領域検出と同様に、センサーと通信範囲のための "交差検出" WGS84ではなく球状の地球を仮定します。これは、リアルタイムゲームやそのようなものではなく、メトリックを吐き出すイベントステップシミュレーションです。 質問は、デカルト座標(地球中心、地球

    2

    1答えて

    Power4マシンである古いPowerMac G5でテストしています。ビルドが失敗している:私はtypedefでは利用できるようにする必要があるとき、私はトラブル決定を抱えている typedef __vector unsigned long long uint64x2_p8; : $ make ... g++ -DNDEBUG -g2 -O3 -mcpu=power4 -maltivec

    1

    3答えて

    数学を行うためのコードを書いたので、速く進む必要があるので、SSEとAVX命令を使用する必要があります。私はg ++でコンパイルしていますが、フラグ-O3と-march=nativeを使用していますので、SSEとAVX命令を使用していると思いますが、わかりません。私のコードのほとんどは、次のようになります。 for(int i = 0;i<size;i++){ a[i] = b[i] *

    3

    1答えて

    は、次のコードを確認してください: #include <stdio.h> #include <omp.h> #define ARRAY_SIZE (1024) float A[ARRAY_SIZE]; float B[ARRAY_SIZE]; float C[ARRAY_SIZE]; int main(void) { for (int i = 0; i < ARRAY_

    1

    1答えて

    私はいくつかのコードをより高速に実行しようとしています。 パラメータ(定数、二重、INT)入力値の アレイ(定数、二重) 出力される :入力として取って - それは点集中コードを浮遊しています 値の配列(double) ヤコビ行列 現在、私は g++-7 (Ubuntu 7.2.0-1ubuntu1~16.04) 7.2.0 、次のコマンドライン使用しています:G ++コンパイラは、過去に、よ

    1

    1答えて

    どのようなイントリンシックがSIMDを通常の行列乗算よりも遅くするのか、そしてSIMDを使用してより速く大きな行列の乗算を行うために何をすべきかと思います。ここには、matrixA[8][8],matrixB[8][8]と結果matrixC[8][8]があります。 float32_tの最大要素数は4であるため、2つのvmulとvaddを実行しました。これはかなり最適化されていないようです。私はAR