DCTのIntelベースのハードウェアスピードアップ？

一部のIntelハードウェアを対象とした画像処理アルゴリズムを作成しています。一般的に我々はジェネリックC実装を好んでいますが、非常にうまく機能する大量の離散コサイン変換（DCT）を核とするアルゴリズムを特定しました。残念ながら、私たちのスループット要件は、一般的なC実装が約2桁程度遅すぎるようなものです。私はいくつかのトリックを使って1桁の大きさを得ることができます。したがって、DCTを約1桁改善すれば、私は成功への道があります。DCTのIntelベースのハードウェアスピードアップ？

インテルMMXは、ハードウェアアクセラレーションでこれらのDCTを実行する方法ですか？これらの悪い男の子をスピードアップするために私が利用できる他のIntel固有のライブラリやハードウェアはありますか？

どこから見始めますか？これは私のための新しい仕事であり、インテルのハードウェアを初めて掘り起こすことになりました。

出典

2012-01-19 John

どのDCT操作を意味していますか？ [離散コサイン変換]（http://ja.wikipedia.org/wiki/Discrete_cosine_transform）または[支配収束定理]（http://en.wikipedia.org/wiki/Dominated_convergence_theorem）？ – wallyk

@wallyk更新された質問。 – John

コードのライセンスがGPLと互換性がある場合は、x264やx265などのビデオコーデックで手に最適化されたDCT /逆DCTルーチンを探すことができます。 –

インテルのIntegrated Performance Primitivesライブラリを見てください。これには、Intelアーキテクチャ、特にMMXとSSEを活用するために最適化された豊富なルーチンが含まれています。 IPPには、DCT（documentation here）用のルーチンも含まれています。

出典

2012-01-19 17:46:02

DCTのIntelベースのハードウェアスピードアップ？

答えて

関連する問題