GPU実装では、GLOPSの性能を見積もる必要があります。このコードは非常に基本的ですが、私の問題は、1つ以上の演算子である "sqrt"または "mad"演算に何個のFLOPSを渡すべきかということです。パフォーマンスとグローバルな効率を測定するためにGPUのsqrtに割り当てられたFLOPS
さらに、このGPUの理論上の最大値は500GFLOPSですが、これらの操作では1 FLOPと言うと、私のコードでは50GFLOPSが得られます。私がそれをプレセントで表現すると、私は10%を得る。スピードアップの面で私は100回取得します。だから私はそれが素晴らしいと思うが、10%は少し低い収量のようだが、どう思いますか?
ありがとうございました