4x1080tiを使用してトレーニングモデルを終了すると、2つのケースでサーバーがダウンしました。なぜサーバーがクラッシュしたのですか?NVRM:RmInitAdapterが失敗しました
私はsysylogを取得し、Nvidia-driverまたはGPUについて何か間違っていることを発見しました。
たsyslog:(及びnvidia-bug-report.log)
[第1]
9月6日午後九時11分41秒GPU -8-サーバintesightカーネル:[31429.221258] NVRM: RmInitAdapterが失敗しました! (0x30から:が0xFFFF:682)
9月6日午前21時11分41秒GPU -8-サーバintesightカーネル:[31429.221337] NVRM: rm_init_adapterはマイナー番号0
軸受装置のための失敗9月6日21:13 :54 gpu-8-server-intesightカーネル:[31562.154256] NVRM: RmInitAdapterが失敗しました! (0x30から:が0xFFFF:682)
9月6日午後9時13分54秒GPU -8-サーバintesightカーネル:[31562.154306] NVRM: rm_init_adapterデバイスがマイナー番号1
【軸受用失敗最初のもの]
9月6日午前2時48分40秒GPU -8-サーバintesightカーネル:[557998.990374] NVRM:PCIで GPU:0000:04:00:GPU-bc54db68-a3cb-54e9- 7287-b95c69e41cf1
9月6日2時48分40秒、GPU-8-サーバintesightカーネル:[557998.990375] NVRM: GPUボードシリアル番号:
9月6日2時48分40秒、GPU-8-サーバintesightカーネル:[557998.990376 ] NVRM: Xid(PCI:0000:04:00):79、GPUがバスから落ちました。
9月2:48:40 gpu-8-server-intesightカーネル:[557998.990377] NVRM: GPU 0000:04:00.0がバスから落ちました。
9月2:48:40 gpu-8-server-intesightカーネル:[557998.990377] NVRM: GPUが搭載されています。
9月2:48:40 gpu-8-server-intesightカーネル:[557998.990655] NVRM:A GPUクラッシュダンプが作成されました。可能であれば、
9月6日2時48分40秒、GPU-8-サーバintesightカーネルを実行してください:[557998.990655] NVRM:
9月前にこのデータを収集するには、rootとしてnvidia-bug-report.sh 6 02:48:40 gpu-8-server-intesightカーネル:[557998.990655] NVRM: NVIDIAカーネルモジュールがアンロードされました。
9月2:48:41 gpu-8-server-intesightカーネル:[557999.884383] NVRM: GPU 0000:04:00.0がバスから落ちました。
9月2:48:41 gpu-8-server-intesightカーネル:[557999.901942] NVRM:A GPUクラッシュダンプが作成されました。可能であれば、
9月6日二時48分41秒、GPU-8-サーバintesightカーネルを実行してください:[557999.901942] NVRM:
9月前にこのデータを収集するには、rootとしてnvidia-bug-report.sh 6 02:48:41 gpu-8-server-intesightカーネル:[557999.901942] NVRM: NVIDIAカーネルモジュールがアンロードされました。
9月2:48:41 gpu-8-server-intesightカーネル:[558000.356948] NVRM: RmInitAdapter failed! (0x30から:が0xFFFF:682)
9月6日2時48分41秒GPU -8-サーバintesightカーネル:[558000.444379] NVRM: rm_init_adapterはマイナー番号0
軸受装置のための失敗9月6日午前2時48分45 GPU -8-サーバintesightカーネル:[558004.604173] NVRM: request_irq()(-22)
9月6日2時48分48秒GPU -8-サーバintesightカーネル失敗しました:[558007.497475] NVRM。 RmInitAdapterが失敗しました。 (0x23:0x56:468)
9月6日午前2時48分48秒GPU -8-サーバintesightカーネル:[558007.497489] NVRM: rm_init_adapterは2時48 9月6日マイナー番号0
軸受装置に失敗しました:50 GPU -8-サーバintesightカーネル:[558008.878985] NVRM: request_irq()(-22)
9月6日2時48分53秒GPU -8-サーバintesightカーネル失敗しました:[558011.735642] NVRM。 RmInitAdapterが失敗しました。 (0x23:0x56:468)
9月6日二時48分53秒GPU -8-サーバintesightカーネル:[558011.735658] NVRM: rm_init_adapterは2時48 9月6日マイナー番号0
軸受装置に失敗しました54 GPU -8-サーバintesightカーネル:[558013.108772] NVRM: request_irq()が失敗した(-22)
9月6日2時48分55秒GPU -8-サーバintesightカーネル:[558013.757168] BUG: 0000000132081000でカーネルページングリクエストを処理できません
9月2:48:55 gpu-8-server-intesight kernel:[558013。 757173] IP:[] kmem_cache_alloc + 0x77/0x1f0
9月6日2時48分55秒、GPU-8-サーバintesightカーネル:我々はこれを持っていた[558013.757175] PGD 10357d8067 PUD 0
Z.Lin、明白にしていただきありがとうございます – zilong