2012-01-19 8 views
1

一部のIntelハードウェアを対象とした画像処理アルゴリズムを作成しています。一般的に我々はジェネリックC実装を好んでいますが、非常にうまく機能する大量の離散コサイン変換(DCT)を核とするアルゴリズムを特定しました。残念ながら、私たちのスループット要件は、一般的なC実装が約2桁程度遅すぎるようなものです。私はいくつかのトリックを使って1桁の大きさを得ることができます。したがって、DCTを約1桁改善すれば、私は成功への道があります。DCTのIntelベースのハードウェアスピードアップ?

インテルMMXは、ハードウェアアクセラレーションでこれらのDCTを実行する方法ですか?これらの悪い男の子をスピードアップするために私が利用できる他のIntel固有のライブラリやハードウェアはありますか?

どこから見始めますか?これは私のための新しい仕事であり、インテルのハードウェアを初めて掘り起こすことになりました。

+0

どのDCT操作を意味していますか? [離散コサイン変換](http://ja.wikipedia.org/wiki/Discrete_cosine_transform)または[支配収束定理](http://en.wikipedia.org/wiki/Dominated_convergence_theorem)? – wallyk

+0

@wallyk更新された質問。 – John

+0

コードのライセンスがGPLと互換性がある場合は、x264やx265などのビデオコーデックで手に最適化されたDCT /逆DCTルーチンを探すことができます。 –

答えて

3

インテルのIntegrated Performance Primitivesライブラリを見てください。これには、Intelアーキテクチャ、特にMMXとSSEを活用するために最適化された豊富なルーチンが含まれています。 IPPには、DCT(documentation here)用のルーチンも含まれています。

関連する問題