2017-09-08 6 views
0

4x1080tiを使用してトレーニングモデルを終了すると、2つのケースでサーバーがダウンしました。なぜサーバーがクラッシュしたのですか?NVRM:RmInitAdapterが失敗しました

私はsysylogを取得し、Nvidia-driverまたはGPUについて何か間違っていることを発見しました。

たsyslog:(及びnvidia-bug-report.log

[第1]

9月6日午後九時11分41秒GPU -8-サーバintesightカーネル:[31429.221258] NVRM: RmInitAdapterが失敗しました! (0x30から:が0xFFFF:682)

9月6日午前21時11分41秒GPU -8-サーバintesightカーネル:[31429.221337] NVRM: rm_init_adapterはマイナー番号0

軸受装置のための失敗9月6日21:13 :54 gpu-8-server-intesightカーネル:[31562.154256] NVRM: RmInitAdapterが失敗しました! (0x30から:が0xFFFF:682)

9月6日午後9時13分54秒GPU -8-サーバintesightカーネル:[31562.154306] NVRM: rm_init_adapterデバイスがマイナー番号1

【軸受用失敗最初のもの]

9月6日午前2時48分40秒GPU -8-サーバintesightカーネル:[557998.990374] NVRM:PCIで GPU:0000:04:00:GPU-bc54db68-a3cb-54e9- 7287-b95c69e41cf1

9月6日2時48分40秒、GPU-8-サーバintesightカーネル:[557998.990375] NVRM: GPUボードシリアル番号:

9月6日2時48分40秒、GPU-8-サーバintesightカーネル:[557998.990376 ] NVRM: Xid(PCI:0000:04:00):79、GPUがバスから落ちました。

9月2:48:40 gpu-8-server-intesightカーネル:[557998.990377] NVRM: GPU 0000:04:00.0がバスから落ちました。

9月2:48:40 gpu-8-server-intesightカーネル:[557998.990377] NVRM: GPUが搭載されています。

9月2:48:40 gpu-8-server-intesightカーネル:[557998.990655] NVRM:A GPUクラッシュダンプが作成されました。可能であれば、

9月6日2時48分40秒、GPU-8-サーバintesightカーネルを実行してください:[557998.990655] NVRM:

9月前にこのデータを収集するには、rootとしてnvidia-bug-report.sh 6 02:48:40 gpu-8-server-intesightカーネル:[557998.990655] NVRM: NVIDIAカーネルモジュールがアンロードされました。

9月2:48:41 gpu-8-server-intesightカーネル:[557999.884383] NVRM: GPU 0000:04:00.0がバスから落ちました。

9月2:48:41 gpu-8-server-intesightカーネル:[557999.901942] NVRM:A GPUクラッシュダンプが作成されました。可能であれば、

9月6日二時48分41秒、GPU-8-サーバintesightカーネルを実行してください:[557999.901942] NVRM:

9月前にこのデータを収集するには、rootとしてnvidia-bug-report.sh 6 02:48:41 gpu-8-server-intesightカーネル:[557999.901942] NVRM: NVIDIAカーネルモジュールがアンロードされました。

9月2:48:41 gpu-8-server-intesightカーネル:[558000.356948] NVRM: RmInitAdapter failed! (0x30から:が0xFFFF:682)

9月6日2時48分41秒GPU -8-サーバintesightカーネル:[558000.444379] NVRM: rm_init_adapterはマイナー番号0

軸受装置のための失敗9月6日午前2時48分45 GPU -8-サーバintesightカーネル:[558004.604173] NVRM: request_irq()(-22)

9月6日2時48分48秒GPU -8-サーバintesightカーネル失敗しました:[558007.497475] NVRM。 RmInitAdapterが失敗しました。 (0x23:0x56:468)

9月6日午前2時48分48秒GPU -8-サーバintesightカーネル:[558007.497489] NVRM: rm_init_adapterは2時48 9月6日マイナー番号0

軸受装置に失敗しました:50 GPU -8-サーバintesightカーネル:[558008.878985] NVRM: request_irq()(-22)

9月6日2時48分53秒GPU -8-サーバintesightカーネル失敗しました:[558011.735642] NVRM。 RmInitAdapterが失敗しました。 (0x23:0x56:468)

9月6日二時48分53秒GPU -8-サーバintesightカーネル:[558011.735658] NVRM: rm_init_adapterは2時48 9月6日マイナー番号0

軸受装置に失敗しました54 GPU -8-サーバintesightカーネル:[558013.108772] NVRM: request_irq()が失敗した(-22)

9月6日2時48分55秒GPU -8-サーバintesightカーネル:[558013.757168] BUG: 0000000132081000でカーネルページングリクエストを処理できません

9月2:48:55 gpu-8-server-intesight kernel:[558013。 757173] IP:[] kmem_cache_alloc + 0x77/0x1f0

9月6日2時48分55秒、GPU-8-サーバintesightカーネル:我々はこれを持っていた[558013.757175] PGD 10357d8067 PUD 0

+1

Z.Lin、明白にしていただきありがとうございます – zilong

答えて

1

問題。私が言うことから、複数のGPUとX99マザーボードとのセットアップは非常に似ています。ブートカーネルのパラメータにpcie_aspm=offを設定することで、エラーを軽減することができました。私はあなたが提供しているnvidiaのバグレポートのログに「ASPM」を検索し、次のことがわかります。

は[0.167842]はACPI FADTは、PCIeのASPMをサポートしているので

それを無効にしないシステムを宣言

[0.278085] acpi PNP0A03:03:FADTは、BIOS設定を使用して、ASPMがサポートされていないことを示します。

[0。282583] acpi PNP0A08:00:FADTは、BIOS設定を使用してASPMがサポートされていないことを示します。

[2.795337] r8169 0000:0a:00.0:ASPMを無効にできません。 OSにはASPMコントロールがありません

私たちのGPUサーバーではまだいくつかの問題がありますが、これが役立つ可能性があります。

は、私はもともとこのthread

UPDATEにこのアイデアを見つけました:我々はまだ時折RmInitAdapterメッセージが表示されますが、我々はもはや任意の安定性の問題を持っていません。記録のために、我々は今、Nvidiaの387.34ドライバを実行しているし、我々は次のブートパラメータを持っている:サイドノートとして

pcie_aspm=off rcutree.rcu_idle_gp_delay=1

を、我々はまた、X299のマザーボードに基づいた新しいクアッドGPUボックスを持っていると我々は持っています同様の問題。

関連する問題