intelコンパイラを使用したWindowsとLinuxのパフォーマンスの差異：アセンブリの見方

私はWindowsとLinux（x86-64）の両方でプログラムを実行しています。これは同じコンパイラ（Intel Parallel Studio XE 2017）で同じオプションでコンパイルされており、WindowsのバージョンはLinuxのものより3倍高速です。原因は、std::erfへの呼び出しで、どちらの場合でもIntel数学ライブラリで解決されます（デフォルトではWindowsでは動的に、Linuxでは静的にはLinuxで動的リンクを使用すると同じパフォーマンスが得られます）。intelコンパイラを使用したWindowsとLinuxのパフォーマンスの差異：アセンブリの見方

ここでは、問題を再現するための簡単なプログラムを示します。

#include <cmath> 
#include <cstdio> 

int main() { 
    int n = 100000000; 
    float sum = 1.0f; 

    for (int k = 0; k < n; k++) { 
    sum += std::erf(sum); 
    } 

    std::printf("%7.2f\n", sum); 
}

このプログラムをvTuneでプロファイルすると、WindowsとLinuxバージョンのアセンブリが少し違うことがわかります。ここで呼び出しサイト（ループ）は、Windows

Block 3: 
"vmovaps xmm0, xmm6" 
call 0x1400023e0 <erff> 
Block 4: 
inc ebx 
"vaddss xmm6, xmm6, xmm0" 
"cmp ebx, 0x5f5e100" 
jl 0x14000103f <Block 3>

およびLinux上でWindowsの

Block 1: 
push rbp 
"sub rsp, 0x40" 
"lea rbp, ptr [rsp+0x20]" 
"lea rcx, ptr [rip-0xa6c81]" 
"movd edx, xmm0" 
"movups xmmword ptr [rbp+0x10], xmm6" 
"movss dword ptr [rbp+0x30], xmm0" 
"mov eax, edx" 
"and edx, 0x7fffffff" 
"and eax, 0x80000000" 
"add eax, 0x3f800000" 
"mov dword ptr [rbp], eax" 
"movss xmm6, dword ptr [rbp]" 
"cmp edx, 0x7f800000" 
...

で呼び出さERF関数の先頭にある、コードは少し異なっています。呼び出しサイトは次のとおりです。

Block 3 
"vmovaps %xmm1, %xmm0" 
"vmovssl %xmm1, (%rsp)" 
callq 0x400bc0 <erff> 
Block 4 
inc %r12d 
"vmovssl (%rsp), %xmm1" 
"vaddss %xmm0, %xmm1, %xmm1" <-------- hotspot here 
"cmp $0x5f5e100, %r12d" 
jl 0x400b6b <Block 3>

と呼ばれる関数（ERF）の始まりです：私は時間がLinux上で失われた2点を示している

"movd %xmm0, %edx" 
"movssl %xmm0, -0x10(%rsp)" <-------- hotspot here 
"mov %edx, %eax" 
"and $0x7fffffff, %edx" 
"and $0x80000000, %eax" 
"add $0x3f800000, %eax" 
"movl %eax, -0x18(%rsp)" 
"movssl -0x18(%rsp), %xmm0" 
"cmp $0x7f800000, %edx" 
jnl 0x400dac <Block 8> 
...

。

誰も私に2つのコードの違いを説明するのに十分なアセンブリを理解していますか？なぜLinuxバージョンが3倍遅くなっているのですか？

出典

2016-11-10 InsideLoop

ハードウェアは同じですか？ – Leon

はい、同じハードウェアです。私はWindowsとLinuxの両方のコアi7 Haswell、WindowsとLinuxの両方のXeon Broadwellでこのケースをテストしました。同じ結果。コアi7では、macOSでもテストしましたが、速度はWindows版と同じです。 – InsideLoop

Linuxは仮想マシンで動作しますか？ – Leon

どちらの場合でも、引数と結果は、WindowsおよびGNU/Linuxのそれぞれの呼び出し規則に従って、のみがになります。

GNU/Linuxの亜種では、xmm1が合計を累積するために使用されます。それはコール・クローバ・レジスタ（a.k.a caller-saved）であるため、コールごとにコール元のスタック・フレームに格納（およびリストア）されます。

Windowsの亜種では、合計を累積するためにxmm6が使用されます。このレジスタは、Windowsの呼び出し規約（では、GNU/Linuxではにはありません）で呼び出されます。

したがって、要約すると、GNU/Linuxのバージョンが保存さ/ xmm0（コーリー[1]）とxmm1（呼び出し側に）の両方を復元するには、Windows版節約一方/のみxmm6（呼び出し先で）を復元します。

[1]理由を理解するにはstd::errfを参照する必要があります。

出典

2016-11-10 10:02:25 chill

レジスタは、常にWindows上で実行され、Linux上で実行されることはありません。 – InsideLoop

コンパイラは常にABIを尊重しますが、異なるABIは呼び出し元と呼び出し先で保存されるレジスタのセットをさまざまな方法で定義します。 – chill

+10

実際、ABIは、コンパイラが定義を見ることができない外部呼び出しに対してのみ尊重する必要があります。それ以外の場合（呼び出し先の定義が表示されている場合）、インライン化やカスタム呼び出し規約の使用など、明確に定義されたコードの結果を変更しない任意の変換を実行できます。 –

Win 7の64ビットモードでVisual Studio 2015を使用すると、erf（）で使用されているパスの一部（次のパスはすべて表示されているわけではありません）には次のコードがあります。各パスはメモリから読み取られる定数を最大8個（おそらく他のパスではそれ以上）持ちますので、レジスタを保存するためのストア/ロードはLinuxとWindowsの3倍の速度差にはなりません。ここまでは、セーブ/リストアのために、xmm6とxmm7を保存して復元しています。時間については、元のポストのプログラムは、インテル3770K（3.5ghz CPU）（VS2015/Win 7 64ビット）で約0.86秒かかる。更新 - 後でxmmレジスタの保存と復元のオーバーヘッドは、プログラム10^8ループの場合約0.03秒（1ループあたり約3ナノ秒）です。

000007FEEE25CF90 mov   rax,rsp 
000007FEEE25CF93 movss  dword ptr [rax+8],xmm0 
000007FEEE25CF98 sub   rsp,48h 
000007FEEE25CF9C movaps  xmmword ptr [rax-18h],xmm6 
000007FEEE25CFA0 lea   rcx,[rax+8] 
000007FEEE25CFA4 movaps  xmmword ptr [rax-28h],xmm7 
000007FEEE25CFA8 movaps  xmm6,xmm0 
000007FEEE25CFAB call  000007FEEE266370 
000007FEEE25CFB0 movsx  ecx,ax 
000007FEEE25CFB3 test  ecx,ecx 
000007FEEE25CFB5 je   000007FEEE25D0AF 
000007FEEE25CFBB sub   ecx,1 
000007FEEE25CFBE je   000007FEEE25D08F 
000007FEEE25CFC4 cmp   ecx,1 
000007FEEE25CFC7 je   000007FEEE25D0AF 
000007FEEE25CFCD xorps  xmm7,xmm7 
000007FEEE25CFD0 movaps  xmm2,xmm6 
000007FEEE25CFD3 comiss  xmm7,xmm6 
000007FEEE25CFD6 jbe   000007FEEE25CFDF 
000007FEEE25CFD8 xorps  xmm2,xmmword ptr [7FEEE2991E0h] 
000007FEEE25CFDF movss  xmm0,dword ptr [7FEEE298E50h] 
000007FEEE25CFE7 comiss  xmm0,xmm2 
000007FEEE25CFEA jbe   000007FEEE25D053 
000007FEEE25CFEC movaps  xmm2,xmm6 
000007FEEE25CFEF mulss  xmm2,xmm6 
000007FEEE25CFF3 movaps  xmm0,xmm2 
000007FEEE25CFF6 movaps  xmm1,xmm2 
000007FEEE25CFF9 mulss  xmm0,dword ptr [7FEEE298B34h] 
000007FEEE25D001 mulss  xmm1,dword ptr [7FEEE298B5Ch] 
000007FEEE25D009 addss  xmm0,dword ptr [7FEEE298B8Ch] 
000007FEEE25D011 addss  xmm1,dword ptr [7FEEE298B9Ch] 
000007FEEE25D019 mulss  xmm0,xmm2 
000007FEEE25D01D mulss  xmm1,xmm2 
000007FEEE25D021 addss  xmm0,dword ptr [7FEEE298BB8h] 
000007FEEE25D029 addss  xmm1,dword ptr [7FEEE298C88h] 
000007FEEE25D031 mulss  xmm0,xmm2 
000007FEEE25D035 mulss  xmm1,xmm2 
000007FEEE25D039 addss  xmm0,dword ptr [7FEEE298DC8h] 
000007FEEE25D041 addss  xmm1,dword ptr [7FEEE298D8Ch] 
000007FEEE25D049 divss  xmm0,xmm1 
000007FEEE25D04D mulss  xmm0,xmm6 
000007FEEE25D051 jmp   000007FEEE25D0B2 
000007FEEE25D053 movss  xmm1,dword ptr [7FEEE299028h] 
000007FEEE25D05B comiss  xmm1,xmm2 
000007FEEE25D05E jbe   000007FEEE25D076 
000007FEEE25D060 movaps  xmm0,xmm2 
000007FEEE25D063 call  000007FEEE25CF04 
000007FEEE25D068 movss  xmm1,dword ptr [7FEEE298D8Ch] 
000007FEEE25D070 subss  xmm1,xmm0 
000007FEEE25D074 jmp   000007FEEE25D07E 
000007FEEE25D076 movss  xmm1,dword ptr [7FEEE298D8Ch] 
000007FEEE25D07E comiss  xmm7,xmm6 
000007FEEE25D081 jbe   000007FEEE25D08A 
000007FEEE25D083 xorps  xmm1,xmmword ptr [7FEEE2991E0h] 
000007FEEE25D08A movaps  xmm0,xmm1 
000007FEEE25D08D jmp   000007FEEE25D0B2 
000007FEEE25D08F mov   eax,8000h 
000007FEEE25D094 test  word ptr [rsp+52h],ax 
000007FEEE25D099 je   000007FEEE25D0A5 
000007FEEE25D09B movss  xmm0,dword ptr [7FEEE2990DCh] 
000007FEEE25D0A3 jmp   000007FEEE25D0B2 
000007FEEE25D0A5 movss  xmm0,dword ptr [7FEEE298D8Ch] 
000007FEEE25D0AD jmp   000007FEEE25D0B2 
000007FEEE25D0AF movaps  xmm0,xmm6 
000007FEEE25D0B2 movaps  xmm6,xmmword ptr [rsp+30h] 
000007FEEE25D0B7 movaps  xmm7,xmmword ptr [rsp+20h] 
000007FEEE25D0BC add   rsp,48h 
000007FEEE25D0C0 ret

出典

2016-11-10 10:15:19 rcgldr

*各パスは、メモリから読み取られた定数を最大8個（多分他のパスではもっと多く）含みます*最新のCPU（Intel SnBファミリまたはAMD k8以降）ではスループットが4サイクル、待ち時間はoutアドレスは事前に知られているので、何かと重複する可能性があります。すなわち、命令へのレジスタ入力が準備されるまでにそれらを実行し、準備することができるので、依存関係を必ずしも長くする必要はない。私はmulss/addssチェーンについてはるかに心配するだろう！ –

あなたはそれが奇妙に見えるのは正しいです。 Cから、OPのテスト関数は、erf（）のレイテンシと、FP add（またはSKLの場合は4）に対して3c、XMMスピル/リロードの場合はオプションで+ 5または6サイクルのボトルネックになります。私は注意深く息子を読まなかった。たぶんstore/reloadによって他の何かが効率が悪くなるかもしれません。 –

@ PeterCordes - フォローアップ、私はerfを返すアセンブリルーチンとxmm0を格納/ロードして返すものに置き換えました。 xmm0オーバーヘッドのストア/ロードは0.03秒であり、10^8ループであり、ストア/ロードの命令対当たり= 3ナノ秒である。 erf（）（再び10^8ループ）を使用して0.03秒のストア/ロードオーバーヘッドと0.86秒の合計時間を比較します。 – rcgldr

intelコンパイラを使用したWindowsとLinuxのパフォーマンスの差異：アセンブリの見方

答えて

関連する問題