一部のIntelハードウェアを対象とした画像処理アルゴリズムを作成しています。一般的に我々はジェネリックC実装を好んでいますが、非常にうまく機能する大量の離散コサイン変換(DCT)を核とするアルゴリズムを特定しました。残念ながら、私たちのスループット要件は、一般的なC実装が約2桁程度遅すぎるようなものです。私はいくつかのトリックを使って1桁の大きさを得ることができます。したがって、DCTを約1桁改善すれば、私は成功への道があります。DCTのIntelベースのハードウェアスピードアップ?
インテルMMXは、ハードウェアアクセラレーションでこれらのDCTを実行する方法ですか?これらの悪い男の子をスピードアップするために私が利用できる他のIntel固有のライブラリやハードウェアはありますか?
どこから見始めますか?これは私のための新しい仕事であり、インテルのハードウェアを初めて掘り起こすことになりました。
どのDCT操作を意味していますか? [離散コサイン変換](http://ja.wikipedia.org/wiki/Discrete_cosine_transform)または[支配収束定理](http://en.wikipedia.org/wiki/Dominated_convergence_theorem)? – wallyk
@wallyk更新された質問。 – John
コードのライセンスがGPLと互換性がある場合は、x264やx265などのビデオコーデックで手に最適化されたDCT /逆DCTルーチンを探すことができます。 –