OpenMPによって並列化されたループがありますが、タスクの性質上、4つのcritical
節があります。OpenMPボトルネックをプロファイルする方法
スピードアップをプロファイリングして、ループの中でクリティカル句(またはクリティカルではない(!))の中で最も時間がかかる部分を見つけるにはどうすればよいでしょうか?
IはGとのUbuntu 10.04使用++ 4.4.3
OpenMPによって並列化されたループがありますが、タスクの性質上、4つのcritical
節があります。OpenMPボトルネックをプロファイルする方法
スピードアップをプロファイリングして、ループの中でクリティカル句(またはクリティカルではない(!))の中で最も時間がかかる部分を見つけるにはどうすればよいでしょうか?
IはGとのUbuntu 10.04使用++ 4.4.3
Scalascaは、OpenMP(およびMPI)コードをプロファイリングして結果を分析するための素晴らしいツールです。 Tauもとても使いやすいですが、使用するのがはるかに難しいです。 vtuneのようなインテルツールも良いですが非常に高価です。
intel vtuneは非常に良い製品です。 scalascaやtauと比較すると使い方が簡単です。それは確かにお金の価値がある。 – tune2fs
VTuneは、実際には非商用ソフトウェアでは無料で使用できます。 http://software.intel.com/en-us/non-commercial-software-development – SaiyanGirl
intelは無料でvtuneの提供を停止したようです。現在、学術的利用のための提供のみがあります。 –
は、OpenMPおよびpthreadsプロファイリングがあり、ソースコードの計測や修正を行うことなく動作します。同期の問題や、スレッドがソースラインレベルに時間を費やしているところがわかります。 OpenMP profilingブログエントリは読む価値があります。
MAPは、MPIなどのマルチプロセスアプリケーションのプロファイルでもあるため、高性能コンピューティングに広く使用されています。
私は追加の情報を元の投稿に変更しました – Mikhail
ompライブラリのソースを変更してrdtscのものを追加することで、このような作業を行いました – osgx