インテルのSSEで私の最初のステップを踏み出そうと思っていたので、ガイドはhereで公開されましたが、WindowsとC++用に開発する代わりにLinuxとC _aligned_malloc
ではなく、posix_memalign
)を使用しないでください。SSEに最適化されたコードはプレーンバージョンと似ています
また、SSE拡張機能を使用せずに1つのコンピューティング集中型メソッドを実装しました。驚くべきことに、私がプログラムを実行すると、両方のコード(SSEとそれ以外のもの)が実行に似た時間を費やします。通常、SSEをもう片方より少し上回る時間です。
これは正常ですか? GCCが既にSSEで最適化している可能性はありますか(また、-O0
オプションを使用して)?私も-mfpmath=387
オプションを試しましたが、方法は変わりません。
どのCPUを使用していますか? –
私はIntel Core i7 M640 2.80GHzを使用しています。 –
OK - 下の「私の答え」を参照してください。また、コードをビルドするために使用しているコマンドラインを投稿することもできます。 –