デスクトップi7-4770k @ 4GHzのコアのピークGFLOPSは4GHz * 8(AVX)*(4FMA)* 4コア= 512 GFLOPSです。しかし、最新のIntel IGP(Iris Pro 5100/5200)のピークは800 GFLOPSを超えています。したがって、一部のアルゴリズムはIGP上でさらに高速に実行されます。コアとIGPを一緒に組み合わせる方が良いでしょう。さらに、IGPはより多くのシリコンを食べ続けます。 Iris Pro 5100は現在、シリコンの30%以上を占めています。 Intelのデスクトップ・プロセッサーがどの方向を向いているかは明らかです。OpenCLを使用しないIntel IGP(Iris Pro 5200)ハードウェアプログラミング
しかし、私が知っている限り、インテルIGPは、OpenCL/OpenGLを除いてプログラマーによってほとんど無視されています。私は、OpenCLを使わずにインテルHDグラフィックスハードウェアをどのように計算(SGEMMなど)することができるのか興味がありますか?
追加されたコメント: LinuxでのHDグラフィックスおよびOpenCLに関するIntelのサポートはありません。私はbeignetを見つけました。これはオープンソースで、少なくともIvy Bridge HDグラフィックス用にLinuxにサポートを追加しようとしています。私はそれを試していない。おそらく、Beignetを開発している人々は、OpenCLなしでHDグラフィックスハードウェアをプログラミングする方法を知っているでしょう。
注:[GFLOPs/s](https://en.wikipedia.org/wiki/FLOPS)ではなく[GFLOPS](https://en.wikipedia.org/wiki/FLOPS)です。また、なぜ8(AVX)*(4 FMA)を掛けているのですか? –
GLOPSに変更しました。 FMAは乗算と加算を同時に行い、2の1つのファクタを与えます。ハスウェルは2つのFMA命令を同時に実行することができ、2つの別のファクタを与えます。各FMAは、別の係数8(単一の浮動小数点)を与える1つのAVX命令を実行できます。 –
GLSLプログラミングですか? DirectCompute? PTX? –