Athlon: Oops, i did it again ... burning

Post Reply
Message
Author
eckieck
Posts: 6
Joined: 08. Sep 2001 14:58

Athlon: Oops, i did it again ... burning

#1 Post by eckieck »

Mit diesen Worten geht grade ein ziemlich nervenaufreibender Tag für mich zuende und ich hoffe hier für meinen Kummer eine Erklärung zu finden ;o)

Ich habe einen Rechner in einem Rechenzentrum bestückt u.a. mit einem AMD Athlon 1Ghz auf einem ASUS K7 133 inkl. einem Überhitzungsschutz (laut Asus Handbuch). Kernel ist 2.2.19 mit den aktuellen Patches.

Etwa als der Rechner 3-4 Monate lief fiel er bereits einmal aus und zwar war die CPU Temperatur auf 130 Grad hochgeschnellt. Was ich auf dem Board nach Öffnen des Gehäuses vorfand war ein geschmolzener Lüfter - festgeschmolzen, das er sich nicht mehr bewegen konnte. Der Markenlüfter, dessen Name mir entfallen ist (nicht Papst) war für Athlon bis max. 1,2 Ghz geeignet (eine Load über 0.5 hat der Rechner bis heute nicht - abgesehen vom booten - nie erlebt).

Ich habe diesen Lüfter samt Kühlereinheit dann gegen ein noch exklusiveres Modell ausgetauscht und der Rechner hat mit der alten !! CPU, die noch ging, weitergearbeitet. 7 Monate lief der Rechner nach diesem Ausfall nun unangetastet durchgehend (ein paar Reboots wg. Kernel Update) ohne Probleme. Heute jedoch verabschiedete er sich erneut ohne ersichtlichen Grund. Und wieder habe ich den Kühler getauscht und die Maschine lief .. etwa eine dreiviertelstunde. Das ich vor erneutem Crash des Rechners schon wieder auf dem Weg nach Hause war, brauche ich wohl nicht zu erwähnen. Nach knapp einer Stunde Fahrt wieder zu Hause angekommen stelle ich dann also fest das der Rechner wieder nicht mehr erreichbar ist. Also Flugs im Rechenzentrum angerufen und der nette Herr am Telefon lies mir aus dem Bios die Temperatur der CPU vor: erneut um die 137° Celsius. Dem Nervenzusammenbruch nahe *G* mach ich mich zum dritten mal an diesem Tag auf ins Rechenzentrum.

Kurzum:
Der neue Lüfter läuft und die CPU bootet nach Abkühlungsphase auch korrekt hoch. Wartet man jedoch etwas oder gibt es etwas mehr Last stirbt der Rechner sofort. Z.B. wenn man beginnt etwas zu kompilieren, ist das ein sofortiger Todesstoß. Also typische Anzeigen einer überhitzung.

Mir kommt das alles etwas komisch vor. Zum einen wenn die CPU einen Knacks hätte oder total kaputt wäre, sollte doch eigenlich gar nichts mehr gehen, oder? Zum anderen, könnte es sein, das es vielleicht gar nicht die CPU, sondern das MOBO ist, das einen Knacks abbekommen hat?

Fakt ist, im Bios wird weder die Umdrehungen der Lüfter im Gehäuse, des Netzteils, noch des CPU-Lüfters angezeigt, alles steht auf (n/A) - früher hat man dort Werte ablesen können. CPU-Temperatur liegt im normalen Zustand bei 75° und Systemtemperatur bei 26°

Und das ist die einzige Fehlermeldung die ich habe (kahm vor dem ersten Absturz heute):

--
Nov 13 13:56:03 adolf kernel: Unable to handle kernel paging request at virtual address 811b2608
Nov 13 13:56:03 adolf kernel: current->tss.cr3 = 00101000, %%cr3 = 00101000
Nov 13 13:56:03 adolf kernel: *pde = 00000000
Nov 13 13:56:03 adolf kernel: Oops: 0000
Nov 13 13:56:03 adolf kernel: CPU: 0
Nov 13 13:56:03 adolf kernel: EIP: 0010:[filp_close+7/88]
Nov 13 13:56:03 adolf kernel: EFLAGS: 00010286
Nov 13 13:56:03 adolf kernel: eax: c31e2000 ebx: 811b2600 ecx: cd7dcf90 edx: 811b2600
Nov 13 13:56:03 adolf kernel: esi: 00000007 edi: cfcf9b00 ebp: 00000001 esp: c7363ef8
Nov 13 13:56:03 adolf kernel: ds: 0018 es: 0018 ss: 0018
Nov 13 13:56:03 adolf kernel: Process httpd (pid: 27037, process nr: 47, stackpage=c7363000)
Nov 13 13:56:03 adolf kernel: Stack: cfcf9b00 c0119a01 811b2600 cfcf9b00 0000000b c7362000 0000000b c7363fc4
Nov 13 13:56:03 adolf kernel: 00000007 c7362000 c010a0c4 0000000b c7362000 4020ad40 085c3934 bffe76f8
Nov 13 13:56:03 adolf kernel: c7363f40 c736255c 0000000b 00000000 00000000 00000000 c7360000 bffe746c
Nov 13 13:56:03 adolf kernel: Call Trace: [do_exit+293/624] [do_signal+504/616] [restore_sigcontext+273/312] [sys_sigreturn+170/204]
[signal_return+20/24]
Nov 13 13:56:03 adolf kernel: Code: 8b 7b 08 83 7b 1c 00 75 0e 68 82 08 1f c0 e8 ba de fe ff 31
--

Das sieht doch eigentlich mehr nach einem RAM-Problem aus, oder? Kann mir allerdings auch vorstellen, das die CPU nur unfähig war aufgrund der Hitze. Fragen über Fragen.

Ich will einfach nur wissen ob ich jetzt das Motherboard, die CPU oder den RAM,. bzw besser alles wegschmeissen sollte. Wäre klasse wenn hier jemand weiter wüßte.

User avatar
Stormbringer
Posts: 1570
Joined: 11. Jan 2001 11:01
Location: Ruhrgebiet

Re: Athlon: Oops, i did it again ... burning

#2 Post by Stormbringer »

Naja, dierekt kann ich Dir wohl nicht helfen .... <img src="http://www.pl-forum.de/UltraBoard/Images/Sad.gif" border="0" align="middle">

Aber ein ähnliches Phänomen hatten wir hier einmal mit einem Board (Gigabyte oder Tekram).
Aufgrund eines defekten Lüfters kam es zu einer Überhitzung, und damit zu einem Abschalten des Systems.
Kein Problem, neune Markenlüfter rein, Probelauf, ok ....
Nach knapp einer Woche: selber Rechner, selbiges Problem, .... ergo: Mißtrauen!!!!
Flux Linux installiert, lm-sensors und alle 15 Sekunden in die Logdatei geschrieben - Testlast übers Netzwerk erzeugt (Daten packen / entpacken). Die Grenztemperatur zum Abschalten haben wir dann noch sehr eng gesetzt! Und siehe da: der Lüfter war vollkommen in Ordnung, aber ab einer bestimmten Temeratur erhielt er wohl keine Spannung mehr (oder zu wenig).
Also: anderen Lüfter rein, der halt nicht onboard angeschlossen wird, sondern ans Festplattenanschlußkabel kommt.
Und siehe da: seit dem Zeitpunkt läuft er. Nun seit etwa 5-6 Monaten ohne Mucken.

Gruß
Continuum Hierarchy Supervisor:
You have already been assimilated.
(Rechtschreibungsreformverweigerer!)

mvo

Re: Athlon: Oops, i did it again ... burning

#3 Post by mvo »

Direkt helfen kann ich Dir leider auch nicht.

>CPU-Temperatur liegt im normalen Zustand bei 75
Das kommt mir auch noch zu hoch vor. Mein Athlon 1400 hat unbelastet ca. 52 Grad Celsius Prozessor- u. 42 Grad Systemtemperatur, mit normalem Standard CPU-Kuehler. Unter Vollast steigen die Werte auf ca. 60/50 Grad.
Laut AMD-Datenblatt ist erlaubt max. 90 Grad bei <= 1000 MHz und 95 Grad Die-Temperatur bei >1000 MHz. Da die AMD CPU's nicht direkt am Die messen, sollte man noch eine ausreichende Sicherheitsspanne einberechnen.

Hat Dein Kuehler guten Kontakt zum Chip?

Descartes

Re: Athlon: Oops, i did it again ... burning

#4 Post by Descartes »

Hast du denn schon einmal nachgeprüft dass auch ausreichend Wärmeleitpaste zwischen Die+Kühlkörper vorhanden ist ? Ich weiss klingt trivial aber bei meinem AMD T-Bird 1200er hatte ich auch einmal das Problem dass er erst bei einiger Last (wenn die CPU "Idle" war ist die kaum merklich wärmer geworden) die Temperatur in ungeahnte Höhen stieg. Zuerst hatte ich auf einen fehlerhaften Temperatursensor getippt ("So heiß kann die CPU nie werden ohne abzurauchen.") aber nach einer Temperaturkontrolle mit dem Finger ("Sch... ist das heiß -- Zieht den Stecker raus !!") naja long story short: der Kühlkörper hatte trotz Wärmeleitpaste nicht ausreichend Kontaktfläche mit dem CPU-Die gehabt. Anderer Kühlkörper und noch etwas Paste aufgetragen und die Kiste läuft bis heute (die CPU hatte den Hitzeschock überlebt).

An

Re: Athlon: Oops, i did it again ... burning

#5 Post by An »

Pentiums sind für Server halt die bessere Wahl.
(Soll nicht abwertend gemeint sein. Sage nur das, was ich jetzt schon des öfteren gehört habe)

An

User avatar
Stormbringer
Posts: 1570
Joined: 11. Jan 2001 11:01
Location: Ruhrgebiet

Re: Athlon: Oops, i did it again ... burning

#6 Post by Stormbringer »

Dem kann ich so nicht zustimmen, An.
Wenn man einmal die Erfahrung gemacht hat, noch einmal 10 zusätzliche Sekunden zu investieren (Menge der Wärmeleitpaste kontrollieren), hat man ein äußerst gutes Preis-/Leistungssystem.
Generell bin ich mit der Qualität von AMD zufrieden - Probleme gibt es überall.
Ich kann mich noch sehr gut an unser erstes Xeon System erinnern ..... kam damals ganz frisch auf den Markt. Zum Glück hatten wir das System einen gründlichen Test unterzogen, bevor es "Live" ging. Hat uns in der zweiten Testwoche doch glatt die db zerschossen. Es hieß, es hätte an einem Problem mit der internen Verwaltung des L2 Cache gelegen.
Wie auch immer ... seit dem nutzen wir keine "neuen" Intelprozessoren mehr, sondern fahren lieber etwas länger mit den bereits erprobten.
Soll einfach nur zeigen: Probs haben alle Hersteller!

Gruß
Continuum Hierarchy Supervisor:
You have already been assimilated.
(Rechtschreibungsreformverweigerer!)

Post Reply