simd

    2

    2答えて

    の高速飽和およびシフト2つのハーフワード32ビットワードに2つの符号付き16ビット値があり、一定値(1から6まで可能)で右シフト(分周)する必要があります。バイト(0..0xFF)に飽和します。 = 5シフト0X 0000 0005にならなければならないと例えば 、 0X FFE1 00AA。 の0x 2345 12340xの00FF 0091 私は、同時にこの擬似コードのようなものの値を飽和させ

    8

    2答えて

    私は「Intelアーキテクチャのためのインテル®最適化ガイド」を読んでいます。 しかし、私はまだ)私は _mm_sfence() _mm_lfence() _mm_mfenceを(使用する必要がある場合については考えている 誰かが私に説明を与えることができますか?

    5

    1答えて

    でのサポート、私は以下のようにコードを参照してください。 #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size(sizeof(float)*VECTOR_SIZE))); // vector of four single floats typedef union

    6

    4答えて

    4バイトのレジスタ(またはSIMDの場合は16ビット)を指定すると、いくつかの命令でレジスタをバイト単位でソートする効率的な方法が必要です。 ありがとうございます。

    11

    3答えて

    おはようございます。私はどこ0.21 < K0 < 21、0 < K1 <〜2000、およびxは、14^2 <整数である、[X^K0 + K1]機能 をLog10を近似しようとしています。 k0 &k1は一定である。実際の目的では、k0 = 2.12、k1 = 2660と仮定することができます。希望の精度は5 * 10^-4相対誤差です。 この関数はLog [x]と事実上同じですが、0に近い点を除

    5

    0答えて

    私は大学で医学的使用のための画像再構成アルゴリズムに関する研究を行っています。 私は3週間まで何かでこだわっている、私は次のコードのパフォーマンス改善する必要があります知っているしたい人のため for (lor=lor0[mypid]; lor <= lor1[mypid]; lor++) { LOR_X = P.symmLOR[lor].x; LOR_Y = P.symmL

    3

    2答えて

    私はこれを序文にしています。私はASMでの経験は非常に限られており、SIMDでの経験は非常に限られています。 しかし、PPC/Cellプロセッサで使用するAltiVec命令に移植したいと思う次のMMX/SSE最適化コードがあります。 これはおそらく大きな質問です。ほんの数行のコードであっても、ここで何が起こっているのか分かりません。 本来の機能: static inline int convolv

    5

    2答えて

    SSE組み込み関数を使用してコードを最適化しようとしていますが、SSE組み込み演算を実行した後にベクトルから整数値を抽出する良い方法がわからない問題が発生しています。欲しいです。 これを行うには良い方法がありますか?私はCでプログラミングしています。コンパイラはgcc version 4.3.2です。 ご協力いただきありがとうございます。

    8

    2答えて

    私はいくつかのAVX(高度なベクトル拡張)命令を使い始めてみたいと思います。私はインテルがこれらの命令(this question参照)を含むソフトウェアをテストするエミュレータを提供していることを知っていますが、16進コードを手動で書きたくないので、現在アセンブラがAVX命令セットを知っているについて質問がありますか? 私は、Windowsで動作し、インテルの構文を受け入れるようにすることができ