avx

    1

    1答えて

    私は私の目的のためにOpenCLを評価しています。あなたが働いて、それを前提としないことを私に発生したアウトオブボックスのWindowsまたはMacのどちらかの理由: Windowsが(もちろん、インストールすることができ、)のOpenCLドライバ を必要としますMacOSのは、唯一のMacOSでのOpenCLをサポートしています> = 10.6だから私はFPU/SSE/AVXコードをコーディング

    6

    1答えて

    YMMレジスタが呼び出し元と呼び出し先によってどのように処理されるかを定義する文書は見つかりませんでした。 は私の質問を集中するために、ここで私が知りたいのですが何である:YMMレジスタは、呼び出し元に戻る前に呼び出し先によって復元されなければならない ? LinuxとWindowsではXMMレジスタに違いがあるので、YMMレジスタも同じルールに従わないと仮定します。それぞれのOSのルールは何です

    4

    1答えて

    私はAVX programming referenceを見ています。 new Haswell instructionsには、待ち望まれている「収集」負荷が含まれています。しかし、インデックスされたデータ項目にどのような整列制限があるのか​​わかりません。参照のセクション2.5 "メモリアライメント"は、様々なVGATHER*命令を表2.4または2.5のいずれかに記載すべきであるようですが、そうでは

    8

    2答えて

    私はいくつかのAVX(高度なベクトル拡張)命令を使い始めてみたいと思います。私はインテルがこれらの命令(this question参照)を含むソフトウェアをテストするエミュレータを提供していることを知っていますが、16進コードを手動で書きたくないので、現在アセンブラがAVX命令セットを知っているについて質問がありますか? 私は、Windowsで動作し、インテルの構文を受け入れるようにすることができ

    3

    1答えて

    MicrosoftがVS2010は、AVX命令のフルセットをサポートしています状態: VS2010のリリースで http://blogs.msdn.com/b/vcblog/archive/2009/11/02/visual-c-code-generation-in-visual-studio-2010.aspx ... 、すべてのAVX機能や命令はが完全には、内因性および/arch:AVXを介し

    4

    2答えて

    AVXのintrinsicアンパック命令_m256_unpacklo_psと_m256_unpackhi_psを使用して、16個の浮動小数点値をインターリーブしようとしています。私が得ている結果は、アンパックがAVXでどのように動作するはずか、何かがうまく動作しないために理解できないために、奇妙です。 私は何を見ていることは、私は、例えば、低次は第三、V3に2つのベクトルv1とv2から浮いて解凍し

    3

    1答えて

    LinuxのRedHat 5.6でicc v12.1を使用するためのAVX最適化コードを生成しようとしている簡単なテストコードがあります。 int main() { double sum = 0.0; for (unsigned int i = 0; i < 1024; i++) { sum += static_cast<double>(i); }