マルチコアがGPUに比べて優れた性能を発揮するアルゴリズムのリストを提案できますか?私はハイブリッドアプローチがまだまだ速いことを知っていますが、私が本当に求めているのは、GPUがまだマルチコアに遅れている分野を理解することです。最も適切に少なくともから、適切な適合性のためにマルチコアでは高速ですがGPUでは比較的遅いカーネル
1
A
答えて
3
:(のような-jNを作る)
- GPUは唯一のSIMD型のワークロードを加速することができますので、彼らは、タスク並列処理のためには良いではありません。
- GPUにはキャッシュが多くなく、そのアトムオプションはCPUに比べて相対的に遅いです。そのため、ツリーのようなポインタベースの構造を持つCPUほど優れていません。
- 画像処理やコンピュータビジョンなどの作業負荷は、GPUの利点(テクスチャマッピングハードウェア、コア数)がCPUの利点(SIMD整数サポートの向上、クロックレートの向上)によって相殺される灰色の領域にあります。実際の処理が浮動小数点で行われている場合は、おそらくGPUの洗い流しまたはわずかな利点です。処理が整数で実行され、SSE2命令にマッピングできる場合、CPUはGPUを押しつぶします。
GPUは、単精度浮動小数点を多く使用するデータ並列作業負荷で優れています。
GPUに負荷をかけている作業負荷でも、データ転送コストが発生します。
0
Intelの人々は、最近のマルチコアCPUとGPUの科学計算を比較した研究を行った人もいます。おそらくあなたはその面白いことを見つけるでしょう。 5ページの図1に結果を示します。
Leeら、「CPUの神話対100X GPUを暴く:スループットコンピューティングの評価をCPUとGPUに」: http://www.hwsw.hu/kepek/hirek/2010/06/p451-lee.pdf
関連する問題
- 1. OpenCLカーネルは、より高速のGPUでより遅く実行する
- 2. 数字比較は文字列比較よりも高速ですか?
- 3. メモリコピー速度の比較CPU <-> GPU
- 4. SSRSはVisual Studioで高速ですがブラウザは遅い
- 5. CUDAプログラムはCPUプログラムより低速ですが、カーネルは高速ですか?
- 6. Saxon xsltはサーバー上では遅いがローカルでは高速
- 7. NDBとDB(高速レプリケーションデータストア上)の速度比較は何ですか?
- 8. Libgdx GestureDetectorパンメソッドは、デバイスの速度が遅く/高速です
- 9. MySQL:varcharフィールドより高速な整数との比較ですか?
- 10. mysql文字列比較 - md5高速ですか?
- 11. 高速軽量画像比較メトリックアルゴリズム
- 12. iOSの配列の高速比較
- 13. AHKでRegExが非常に遅いが、メモ帳では高速です。++
- 14. クエリは直接比較では高速ですが、同じ列インデックスを持つテーブルの比較ではありません
- 15. C#での文字列比較の高速化
- 16. C++ std :: async:8コアと比較して4コアで高速
- 17. 検索は速く、検索は遅くSSMSの検索が高速です。
- 18. .pycファイルの「実行中」が.pyファイルと比較して高速でないのはなぜですか?
- 19. エンティティのフレームワークlinqがコードでは速度は遅くなりますが、SQL Server Management Studioでは高速です
- 20. SQLクエリはHibernateで非常に遅く、mysqlで高速です
- 21. PySpark .groupBy()と.count()は、比較的小さなデータフレームでは遅くなります。
- 22. GCLockerの遅いパスと高速パスは何ですか?
- 23. Pythonマルチプロセッシングのstarmapとapply_asyncの比較は速いですか?
- 24. GPUでインスタンス化を高速化していますか?
- 25. MSSQLの高速クエリですが、PHPの方が遅い
- 26. iPhoneデバイスでUIWebviewが遅く、シミュレータが高速です
- 27. SignalRはUWPで動作が遅く、コンソールアプリケーションでは高速に動作します。
- 28. 他のIDEではPythonモジュールの読み込みが遅いですが、Spyderでは20倍高速です
- 29. 64ビットIntelアーキテクチャでのuint8_t値の比較は、uint32_tの比較よりも遅いのですか?
- 30. なぜ文字列比較は整数比較に比べて速いのですか?
はい、私はポインタ追跡アルゴリズムは、空間的局所性の問題があり、GPUは持っていることを知っていますより小さなキャッシュ。しかし、GPUは、ハードウェアマルチスレッドを通じて長いメモリレイテンシを隠すことができます。浮動小数点パフォーマンスの面では、GPUは優れており、整数ベースの計算はマルチコア上で優れています。整数計算に基づいたポインタ追跡アルゴリズムは、マルチコアよりもGPU上で動作が遅くなる可能性が高いと言うことができますか? – nurabha
私はそれらをグループ化しません - GPUは狭い整数サポートに依存する計算で悪いと言います(例えば中央値の計算は対応する整数の要素ごとの最小/最大計算の驚きです)。ポインタ追いかけ時。 これらはまた、一般的なタスク並列コンピューティング(パラレルメイクのような)も不可能です。 CPUの分離されたコアは、異なるコアが並行して起こる全く異なることをしているタスクに適しています。 – ArchaeaSoftware