[Linux] - mce - Hardware Error

Hallo Community,

kann mir bitte wer bei der Fehlersuche bei meinem PC helfen?
Und zwar kommt es vor, dass das System gelegentlich steht und nach dem Hardware-Reset, steht folgendes unter dmesg:

Code:
[    0.352908] mce: [Hardware Error]: Machine check events logged
[    0.352909] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 0: f200004000000800
[    0.352913] mce: [Hardware Error]: TSC 0
[    0.352916] mce: [Hardware Error]: PROCESSOR 0:1067a TIME 1602185490 SOCKET 0 APIC 0 microcode a0b
[    0.352919] mce: [Hardware Error]: Machine check events logged
[    0.352920] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 5: f200001014000e0f
[    0.352922] mce: [Hardware Error]: TSC 0
[    0.352924] mce: [Hardware Error]: PROCESSOR 0:1067a TIME 1602185490 SOCKET 0 APIC 0 microcode a0b
[    0.356571] mce: [Hardware Error]: CPU 1: Machine Check: 0 Bank 5: f200001030000e0f
[    0.356578] mce: [Hardware Error]: TSC 0
[    0.356580] mce: [Hardware Error]: PROCESSOR 0:1067a TIME 1602185490 SOCKET 0 APIC 1 microcode a0b
[    0.359322] mce: [Hardware Error]: CPU 2: Machine Check: 0 Bank 0: f200004000000800
[    0.359322] mce: [Hardware Error]: TSC 0
[    0.359322] mce: [Hardware Error]: PROCESSOR 0:1067a TIME 1602185490 SOCKET 0 APIC 2 microcode a0b
[    0.359322] mce: [Hardware Error]: CPU 2: Machine Check: 0 Bank 5: f200000014000e0f
[    0.359322] mce: [Hardware Error]: TSC 0
[    0.359322] mce: [Hardware Error]: PROCESSOR 0:1067a TIME 1602185490 SOCKET 0 APIC 2 microcode a0b
[    0.360826] mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: f200000030000e0f
[    0.360830] mce: [Hardware Error]: TSC 0
[    0.360832] mce: [Hardware Error]: PROCESSOR 0:1067a TIME 1602185490 SOCKET 0 APIC 3 microcode a0b

Leider wird kein genauerer Fehlertext unter /var/log/mcelog mitgeloggt.

Kann mir jemand in der schnelle Sagen, was hier das Problem ist?
Das Problem tritt nur gelegentlich auf.
 
Klingt sehr nach Hardwareproblem. Eventuell hilft ein Microcode Update.
Hast du ein Temperaturproblem? Mal mit lm-sensors prüfen.
Und ein memtest wäre auch gut
 
Klingt sehr nach Hardwareproblem. Eventuell hilft ein Microcode Update.
Hast du ein Temperaturproblem? Mal mit lm-sensors prüfen.
Und ein memtest wäre auch gut
Fraglich ob es für meinen alten Prozessor (Intel Xeon X5460) noch ein Microcode Update gibt. BIOS für das Mainboard jedenfalls nicht mehr.
Naja, das System (Mainboard, CPU und RAM) hat sowieso schon fast 12 Jahre auf dem Buckel. Sind glaube ich die ersten Anzeichen um
sich mal wieder ein neues System anzuschaffen.

Temperaturproblem könnte zwar auch sein, hab aber den CPU Lüfter schon gereinigt. Außerdem tritt das Problem auch bei niedriger Last auf.
Speichertest (mit memtest86+) habe ich schon 24 Stunden laufen lassen. Hat aber keine Fehler gefunden.

Wie gesagt, schade dass nichts unter /var/log/mcelog steht. Würde aber gerne wissen was zum Beispiel folgendes bedeutet:
Code:
CPU 0: Machine Check: 0 Bank 0: f200004000000800
Hier der Wert f200004000000800 im speziellen. Ist das die Speicheradresse wo das Problem aufgetreten ist, oder ist das die codierte Fehlermeldung?

Wenn ja, wie kann man die codieren, um den genaueren Fehler heraus zu finden. Weiß da jemand was genaueres?

Gibt ja laut Intel® 64 and IA-32 Architectures Software Developer Manuals (Punkt: Machine Check Architecture) eine Funktion von x86 Prozessoren die Hardwarefehler erkennen kann. Wird ja bei Linux mit Sicherheit, diese Funktion verwendet. Leider werde ich vom Wert nicht schlau. Entweder ist es die Speicheradresse wo das Problem aufgetreten ist, oder der Fehlercode...
 

Chromatin

Moderator
Mitarbeiter
Fraglich ob es für meinen alten Prozessor (Intel Xeon X5460) noch ein Microcode Update gibt. BIOS für das Mainboard jedenfalls nicht mehr.
Naja, das System (Mainboard, CPU und RAM) hat sowieso schon fast 12 Jahre auf dem Buckel. Sind glaube ich die ersten Anzeichen um
sich mal wieder ein neues System anzuschaffen.

Scheint so. Wenn man nach dem Problem sucht, dann findet man ja überall was - über Jahre verteilt und nie hat einer eine wirklich brauchbare Lösung.
Außerdem scheint man den Fehler eher selten reproduzieren zu können .. Da es nur gelegentlich auftritt, tippe ich mal auf das Board. Ich nehme an dass du sowas wie Temperatur etc. schon gecheckt hast..
 
Oben