最近、サーバーマシンにRedHat Server(RHEL)7.3がインストールされました。コンピュータが非アクティブ(ただしスリープモードにはなりません)のまま長時間続くと、カーネルがクラッシュコアをダンプし、マシンが再起動します。RedHat Server 7.3 CPUインテルアイドル状態による望ましくないリブート(カーネルコア)
私はcrash
でダンプされたvmcoreをチェックして、Intelアイドル状態が問題を引き起こしたことを認識しました。ここcrash
のバックトレースは、次のとおりです。
KERNEL: /usr/lib/debug/lib/modules/3.10.0-514.el7.x86_64/vmlinux
DUMPFILE: /var/crash/127.0.0.1-2017-03-23-05:23:57/vmcore [PARTIAL DUMP]
CPUS: 12foreach: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map"
DATE: Thu Mar 23 05:22:18 2017
UPTIME: 14:13:20
LOAD AVERAGE: 0.00, 0.01, 0.05
TASKS: 435
NODENAME: localhost.localdomain
RELEASE: 3.10.0-514.el7.x86_64
VERSION: #1 SMP Wed Oct 19 11:24:13 EDT 2016
MACHINE: x86_64 (3299 Mhz)
MEMORY: 31.8 GB
PANIC: "Kernel panic - not syncing: Hard LOCKUP"
PID: 0
COMMAND: "swapper/0"
TASK: ffffffff819c1460 (1 of 12) [THREAD_INFO: ffffffff819ac000]
CPU: 0
STATE: TASK_RUNNING (ACTIVE)
WARNING: panic task not found
crash> bt
PID: 0 TASK: ffffffff819c1460 CPU: 0 COMMAND: "swapper/0"
bt: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map"
#0 [ffff88089f405e58] crash_nmi_callback at ffffffff8104d382
#1 [ffff88089f405e68] __die at ffffffff8168ef19
#2 [ffff88089f405eb0] do_nmi at ffffffff8168f093
#3 [ffff88089f405ef0] nmi at ffffffff8168e353
--->problem is here ! [exception RIP: intel_idle+215]
RIP: ffffffff8138f967 RSP: ffffffff819afe18 RFLAGS: 00000046
RAX: 0000000000000010 RBX: 0000000000000010 RCX: 0000000000000046
RDX: ffffffff819afe18 RSI: 0000000000000018 RDI: 0000000000000001
RBP: ffffffff8138f967 R8: ffffffff8138f967 R9: 0000000000000018
R10: ffffffff819afe18 R11: 0000000000000046 R12: ffffffffffffffff
R13: 0000000000000000 R14: ffffffff819affd8 R15: 0000000000000000
ORIG_RAX: 0000000000000000 CS: 0010 SS: 0018
--- <(unknown) exception stack> ---
#4 [ffffffff819afe18] intel_idle at ffffffff8138f967
#5 [ffffffff819afe88] cpuidle_enter_state at ffffffff81514099
#6 [ffffffff819afec8] arch_cpu_idle at ffffffff8103516e
#7 [ffffffff819afed8] cpu_startup_entry at ffffffff810e7c95
#8 [ffffffff819aff30] csum_partial_copy_generic at ffffffff81674307
#9 [ffffffff819aff40] start_kernel at ffffffff81b0a05a
#10 [ffffffff819aff88] x86_64_start_reservations at ffffffff81b095ee
#11 [ffffffff819aff98] x86_64_start_kernel at ffffffff81b09742
私はフォーラムの多くをチェックし、INTEL CPUのCSTATEを管理し、アイドルモードに入ることがないためにintel_idleドライバを無効にしてみました。したがって、私はGRUB設定で追加しました:intel_idle.max_cstate=0
。
再起動は夜間に再び発生しましたが、別の場所でクラッシュしました。新しいcrash
バックトレースは次のとおりです。
KERNEL: /usr/lib/debug/lib/modules/3.10.0-514.el7.x86_64/vmlinux
DUMPFILE: 127.0.0.1-2017-03-23-12:52:18/vmcore [PARTIAL DUMP]
CPUS: 12foreach: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map"
DATE: Thu Mar 23 12:50:39 2017
UPTIME: 01:37:43
LOAD AVERAGE: 0.00, 0.01, 0.05
TASKS: 420
NODENAME: localhost.localdomain
RELEASE: 3.10.0-514.el7.x86_64
VERSION: #1 SMP Wed Oct 19 11:24:13 EDT 2016
MACHINE: x86_64 (3299 Mhz)
MEMORY: 31.8 GB
PANIC: "Kernel panic - not syncing: Hard LOCKUP"
PID: 0
COMMAND: "swapper/0"
TASK: ffffffff819c1460 (1 of 12) [THREAD_INFO: ffffffff819ac000]
CPU: 0
STATE: TASK_RUNNING (ACTIVE)
WARNING: panic task not found
crash> bt
PID: 0 TASK: ffffffff819c1460 CPU: 0 COMMAND: "swapper/0"
bt: seek error: kernel virtual address: ffffffffffffffff type: "cpu_online_map"
#0 [ffff88089f405e58] crash_nmi_callback at ffffffff8104d382
#1 [ffff88089f405e68] __die at ffffffff8168ef19
#2 [ffff88089f405eb0] do_nmi at ffffffff8168f093
#3 [ffff88089f405ef0] nmi at ffffffff8168e353
--->problem is here ! [exception RIP: **acpi_processor_ffh_cstate_enter+150**]
RIP: ffffffff8104d326 RSP: ffffffff819afdf8 RFLAGS: 00000046
RAX: 0000000000000010 RBX: 0000000000000010 RCX: 0000000000000046
RDX: ffffffff819afdf8 RSI: 0000000000000018 RDI: 0000000000000001
RBP: ffffffff8104d326 R8: ffffffff8104d326 R9: 0000000000000018
R10: ffffffff819afdf8 R11: 0000000000000046 R12: ffffffffffffffff
R13: ffff88089f57fcdc R14: ffffffff819affd8 R15: 0000000000000000
ORIG_RAX: 0000000000000000 CS: 0010 SS: 0018
--- <(unknown) exception stack> ---
#4 [ffffffff819afdf8] acpi_processor_ffh_cstate_enter at ffffffff8104d326
#5 [ffffffff819afe18] acpi_processor_get_power_info at ffffffff813c2094
#6 [ffffffff819afe88] cpuidle_enter_state at ffffffff81514099
#7 [ffffffff819afec8] arch_cpu_idle at ffffffff8103516e
#8 [ffffffff819afed8] cpu_startup_entry at ffffffff810e7c95
#9 [ffffffff819aff30] csum_partial_copy_generic at ffffffff81674307
#10 [ffffffff819aff40] start_kernel at ffffffff81b0a05a
#11 [ffffffff819aff88] x86_64_start_reservations at ffffffff81b095ee
#12 [ffffffff819aff98] x86_64_start_kernel at ffffffff81b09742
今、私は固執しています。もし誰かが私にチェックするためのアイデアを与えることができたら。 3.10.0: インテルは 32GBのRAM のRHEL 7.3 カーネルのバージョンをi7-5820k:
コンピュータは、(... intel_idleクラッシュなど) テストは、同じ構成を持つ2台の同一のコンピュータ上で行われていると結果は同じです
-514私はこの問題を解決するために管理し、あなたの助けのためのRHELのサポートに