simd

2熱

2答えて

の高速飽和およびシフト2つのハーフワード32ビットワードに2つの符号付き16ビット値があり、一定値（1から6まで可能）で右シフト（分周）する必要があります。バイト（0..0xFF）に飽和します。 = 5シフト0X 0000 0005にならなければならないと例えば、 0X FFE1 00AA。の0x 2345 12340xの00FF 0091 私は、同時にこの擬似コードのようなものの値を飽和させ

8熱

2答えて

_mm_sfence _mm_lfenceと_mm_mfenceを使用する場合

私は「Intelアーキテクチャのためのインテル®最適化ガイド」を読んでいます。しかし、私はまだ）私は _mm_sfence（） _mm_lfence（） _mm_mfenceを（使用する必要がある場合については考えている誰かが私に説明を与えることができますか？

5熱

1答えて

SSE（SIMD拡張）gccの

でのサポート、私は以下のようにコードを参照してください。 #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size(sizeof(float)*VECTOR_SIZE))); // vector of four single floats typedef union

6熱

4答えて

ファスト・イン・レジスタ・ソート・バイト？

4バイトのレジスタ（またはSIMDの場合は16ビット）を指定すると、いくつかの命令でレジスタをバイト単位でソートする効率的な方法が必要です。ありがとうございます。

11熱

3答えて

近似log10 [x^k0 + k1]

おはようございます。私はどこ0.21 < K0 < 21、0 < K1 <〜2000、およびxは、14^2 <整数である、[X^K0 + K1]機能をLog10を近似しようとしています。 k0 &k1は一定である。実際の目的では、k0 = 2.12、k1 = 2660と仮定することができます。希望の精度は5 * 10^-4相対誤差です。この関数はLog [x]と事実上同じですが、0に近い点を除

5熱

0答えて

地域を改善し、医療画像再構成の実装におけるキャッシュ汚染を減らす

私は大学で医学的使用のための画像再構成アルゴリズムに関する研究を行っています。私は3週間まで何かでこだわっている、私は次のコードのパフォーマンス改善する必要があります知っているしたい人のため for (lor=lor0[mypid]; lor <= lor1[mypid]; lor++) { LOR_X = P.symmLOR[lor].x; LOR_Y = P.symmL

3熱

2答えて

AltiVecへのMMX/SSE命令の移植

私はこれを序文にしています。私はASMでの経験は非常に限られており、SIMDでの経験は非常に限られています。しかし、PPC/Cellプロセッサで使用するAltiVec命令に移植したいと思う次のMMX/SSE最適化コードがあります。これはおそらく大きな質問です。ほんの数行のコードであっても、ここで何が起こっているのか分かりません。本来の機能： static inline int convolv

5熱

2答えて

128ビットSSEベクトルから32ビット整数値をロードして抽出する最も効率的な方法は何ですか？

SSE組み込み関数を使用してコードを最適化しようとしていますが、SSE組み込み演算を実行した後にベクトルから整数値を抽出する良い方法がわからない問題が発生しています。欲しいです。これを行うには良い方法がありますか？私はCでプログラミングしています。コンパイラはgcc version 4.3.2です。ご協力いただきありがとうございます。

8熱

2答えて

現在、どのアセンブラがAVX命令セットをサポートしていますか？

私はいくつかのAVX（高度なベクトル拡張）命令を使い始めてみたいと思います。私はインテルがこれらの命令（this question参照）を含むソフトウェアをテストするエミュレータを提供していることを知っていますが、16進コードを手動で書きたくないので、現在アセンブラがAVX命令セットを知っているについて質問がありますか？私は、Windowsで動作し、インテルの構文を受け入れるようにすることができ