perf
は、ハードウェアおよびソフトウェアのイベントを報告できるパフォーマンス分析ツールです。 MPIアプリケーションを使ってアプリケーションを実行しようとしていますが、アプリケーションがデータ転送や演算処理で各コア内で費やす時間を知るためです。MPIアプリケーションでperfを実行
通常、私は
mpirun -np $NUMBER_OF_CORES app_name
で自分のアプリケーションを実行しますそして、それにはいくつかのコアまたは多分いくつかのノードに出現します。上にperf
を追加することは可能ですか?私は試しました
perf stat mpirun -np $NUMBER_OF_CORES app_name
しかし、出力はmpirunのいくつかの並べ替えのように見えます。各コアからperf型データを収集する方法はありますか?以下のような