2017-03-24 8 views
0

最近、サーバーマシンにRedHat Server(RHEL)7.3がインストールされました。コンピュータが非アクティブ(ただしスリープモードにはなりません)のまま長時間続くと、カーネルがクラッシュコアをダンプし、マシンが再起動します。RedHat Server 7.3 CPUインテルアイドル状態による望ましくないリブート(カーネルコア)

私はcrashでダンプされたvmcoreをチェックして、Intelアイドル状態が問題を引き起こしたことを認識しました。ここcrashのバックトレースは、次のとおりです。

 KERNEL: /usr/lib/debug/lib/modules/3.10.0-514.el7.x86_64/vmlinux 
    DUMPFILE: /var/crash/127.0.0.1-2017-03-23-05:23:57/vmcore [PARTIAL DUMP] 
     CPUS: 12foreach: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map" 

     DATE: Thu Mar 23 05:22:18 2017 
     UPTIME: 14:13:20 
LOAD AVERAGE: 0.00, 0.01, 0.05 
     TASKS: 435 
    NODENAME: localhost.localdomain 
    RELEASE: 3.10.0-514.el7.x86_64 
    VERSION: #1 SMP Wed Oct 19 11:24:13 EDT 2016 
    MACHINE: x86_64 (3299 Mhz) 
     MEMORY: 31.8 GB 
     PANIC: "Kernel panic - not syncing: Hard LOCKUP" 
     PID: 0 
    COMMAND: "swapper/0" 
     TASK: ffffffff819c1460 (1 of 12) [THREAD_INFO: ffffffff819ac000] 
     CPU: 0 
     STATE: TASK_RUNNING (ACTIVE) 
    WARNING: panic task not found 

crash> bt 
PID: 0  TASK: ffffffff819c1460 CPU: 0 COMMAND: "swapper/0" 
bt: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map" 
#0 [ffff88089f405e58] crash_nmi_callback at ffffffff8104d382 
#1 [ffff88089f405e68] __die at ffffffff8168ef19 
#2 [ffff88089f405eb0] do_nmi at ffffffff8168f093 
#3 [ffff88089f405ef0] nmi at ffffffff8168e353 
--->problem is here !  [exception RIP: intel_idle+215] 
    RIP: ffffffff8138f967 RSP: ffffffff819afe18 RFLAGS: 00000046 
    RAX: 0000000000000010 RBX: 0000000000000010 RCX: 0000000000000046 
    RDX: ffffffff819afe18 RSI: 0000000000000018 RDI: 0000000000000001 
    RBP: ffffffff8138f967 R8: ffffffff8138f967 R9: 0000000000000018 
    R10: ffffffff819afe18 R11: 0000000000000046 R12: ffffffffffffffff 
    R13: 0000000000000000 R14: ffffffff819affd8 R15: 0000000000000000 
    ORIG_RAX: 0000000000000000 CS: 0010 SS: 0018 
--- <(unknown) exception stack> --- 
#4 [ffffffff819afe18] intel_idle at ffffffff8138f967 
#5 [ffffffff819afe88] cpuidle_enter_state at ffffffff81514099 
#6 [ffffffff819afec8] arch_cpu_idle at ffffffff8103516e 
#7 [ffffffff819afed8] cpu_startup_entry at ffffffff810e7c95 
#8 [ffffffff819aff30] csum_partial_copy_generic at ffffffff81674307 
#9 [ffffffff819aff40] start_kernel at ffffffff81b0a05a 
#10 [ffffffff819aff88] x86_64_start_reservations at ffffffff81b095ee 
#11 [ffffffff819aff98] x86_64_start_kernel at ffffffff81b09742 

私はフォーラムの多くをチェックし、INTEL CPUのCSTATEを管理し、アイドルモードに入ることがないためにintel_idleドライバを無効にしてみました。したがって、私はGRUB設定で追加しました:intel_idle.max_cstate=0

再起動は夜間に再び発生しましたが、別の場所でクラッシュしました。新しいcrashバックトレースは次のとおりです。

KERNEL: /usr/lib/debug/lib/modules/3.10.0-514.el7.x86_64/vmlinux 
    DUMPFILE: 127.0.0.1-2017-03-23-12:52:18/vmcore [PARTIAL DUMP] 
     CPUS: 12foreach: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map" 

     DATE: Thu Mar 23 12:50:39 2017 
     UPTIME: 01:37:43 
LOAD AVERAGE: 0.00, 0.01, 0.05 
     TASKS: 420 
    NODENAME: localhost.localdomain 
    RELEASE: 3.10.0-514.el7.x86_64 
    VERSION: #1 SMP Wed Oct 19 11:24:13 EDT 2016 
    MACHINE: x86_64 (3299 Mhz) 
     MEMORY: 31.8 GB 
     PANIC: "Kernel panic - not syncing: Hard LOCKUP" 
     PID: 0 
    COMMAND: "swapper/0" 
     TASK: ffffffff819c1460 (1 of 12) [THREAD_INFO: ffffffff819ac000] 
     CPU: 0 
     STATE: TASK_RUNNING (ACTIVE) 
    WARNING: panic task not found 

crash> bt 
PID: 0  TASK: ffffffff819c1460 CPU: 0 COMMAND: "swapper/0" 
bt: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map" 
#0 [ffff88089f405e58] crash_nmi_callback at ffffffff8104d382 
#1 [ffff88089f405e68] __die at ffffffff8168ef19 
#2 [ffff88089f405eb0] do_nmi at ffffffff8168f093 
#3 [ffff88089f405ef0] nmi at ffffffff8168e353 
--->problem is here ! [exception RIP: **acpi_processor_ffh_cstate_enter+150**] 
    RIP: ffffffff8104d326 RSP: ffffffff819afdf8 RFLAGS: 00000046 
    RAX: 0000000000000010 RBX: 0000000000000010 RCX: 0000000000000046 
    RDX: ffffffff819afdf8 RSI: 0000000000000018 RDI: 0000000000000001 
    RBP: ffffffff8104d326 R8: ffffffff8104d326 R9: 0000000000000018 
    R10: ffffffff819afdf8 R11: 0000000000000046 R12: ffffffffffffffff 
    R13: ffff88089f57fcdc R14: ffffffff819affd8 R15: 0000000000000000 
    ORIG_RAX: 0000000000000000 CS: 0010 SS: 0018 
--- <(unknown) exception stack> --- 
#4 [ffffffff819afdf8] acpi_processor_ffh_cstate_enter at ffffffff8104d326 
#5 [ffffffff819afe18] acpi_processor_get_power_info at ffffffff813c2094 
#6 [ffffffff819afe88] cpuidle_enter_state at ffffffff81514099 
#7 [ffffffff819afec8] arch_cpu_idle at ffffffff8103516e 
#8 [ffffffff819afed8] cpu_startup_entry at ffffffff810e7c95 
#9 [ffffffff819aff30] csum_partial_copy_generic at ffffffff81674307 
#10 [ffffffff819aff40] start_kernel at ffffffff81b0a05a 
#11 [ffffffff819aff88] x86_64_start_reservations at ffffffff81b095ee 
#12 [ffffffff819aff98] x86_64_start_kernel at ffffffff81b09742 

今、私は固執しています。もし誰かが私にチェックするためのアイデアを与えることができたら。 3.10.0: インテルは 32GBのRAM のRHEL 7.3 カーネルのバージョンをi7-5820k:

コンピュータは、(... intel_idleクラッシュなど) テストは、同じ構成を持つ2台の同一のコンピュータ上で行われていると結果は同じです

-514私はこの問題を解決するために管理し、あなたの助けのためのRHELのサポートに

答えて

0

感謝、ありがとうございました。 "nouveau"ドライバが原因でした。

解決方法は、ブート時にロードされないようにブラックリストに載せることです。

関連する問題