Seite 1 von 1

Gelegentliches "verschwinden" der Partition

Verfasst: 04. Feb 2010 19:57
von schnecke
Hallo,
ich habe hier ein ziemliches Problem. Gelegentlich passiert es, dass am Morgen eine Partition auf dem Server fehlt.
Folgender Eintrag findet sich nachts, wenn die Datensicherungen laufen, in /var/log/messages.

Code: Alles auswählen

01:47:22 server syslog-ng[3035]: Changing permissions on special file /dev/xconsole
01:47:22 server syslog-ng[3035]: Changing permissions on special file /dev/tty10
01:47:22 server kernel: aacraid: Host adapter reset request. SCSI hang ?
01:47:22 server kernel: klogd 1.4.1, ---------- state change ----------
01:48:23 server kernel: aacraid: SCSI bus appears hung
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754142
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754414
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754622
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754894
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183755166
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: Buffer I/O error on device sdc1, logical block 26181
01:48:23 server kernel: lost page write due to I/O error on sdc1
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
Am nächsten morgen ist also die Part. weg und ein umount und mount endet mit der Fehlermeldung, dass ein derartiges physiches Laufwerk nicht vorhanden sei.

Kann sich jemand erklären wo das Problem ist?
Die Platten sind über einen Raid Controller angeschlossen.

Treiberproblem? Hardwareproblem? Könnte es der RAM des Servers sein?
Wenn jemand Tipps hat, wie man hier am besten vorgeht um das Problem zu analysieren, wäre ich sehr dankbar.

Gruß,
Alex

P.S.: Der Server läuft permanent und der Fehler tritt nur sporadisch, zu letzt vor ca. 6 Monaten, auf.

Verfasst: 04. Feb 2010 20:54
von Janka
Das es sich um nahe beieinanderliegende Sektoren handelt stinkt das meines Erachtens nach einer defekten Platte. Sind es jedes Mal dieselben Sektornummern?

Janka

Verfasst: 04. Feb 2010 22:43
von schnecke
Sollte dann nicht wenigstens der RAID Controller den Fehler vorher bemerken?
Der RAID Controller ist von ICP vortex und in der Console gibt's keine Hinweis auf ein defektes RAID Array.

Verfasst: 05. Feb 2010 11:47
von Janka
Sollte er. Tut er aber offensichtlich nicht. Oder er tut es, aber du bekommst keine Meldung. Ist das jemals vorher bei dir getestet worden?

Wichtig um beurteilen zu können ob es einer der Platten oder eins der Kabel ist, ist ob die Sektornummern immer dieselben sind. Wenn ja, ist es garantiert eine der Platten. Sonst eher ein Kabel.

Janka

Verfasst: 05. Feb 2010 12:12
von schnecke
Also der "StorMan" von ICP hält sich bedeckt und geht von einem vollständig intakten Array aus. Auch in der Eventliste ist abgesehen von meinen Logins nichts zu sehen.

Ich bin wirklich erstaunt, sollte man doch von einem 800,- € Controller etwas mehr Information erwarten können.

muß nicht immer kabel sein, auch controllersind doof

Verfasst: 05. Feb 2010 16:33
von knox
Ich hatte früher mal Platten von TEAC, diese haben sich auch nach kurzer Zeit* alle verabschiedet, indem sie sich sporadisch abhängten.
Der Zeitraum wurde dann kürzer ... aber man konnte noch Datensicherung machen.

Schade aber um die Mechanik, wenn die SCSI-Controller Schrott waren

*kurzer Zeit: ab 7. Monat, 6 Monate gab's Garantie ;)

Verfasst: 11. Mai 2010 9:03
von schnecke
So, neues von diesem Fall:

Gestern wieder das Ähnliche, jedoch im Vergleich zum letzten Mal:
- Andere Platte (Damals ID1 jetzt ID8)
- Anderer Connector (Damals 0 jetzt 2)

Sehr seltsam, wenn es wenigstens der gleiche Connector wäre, hätte ich auch auf das Kabel getippt, aber so....
Jemand eine Idee?
Vielen Dank,
Gruß,
Alex

Verfasst: 12. Mai 2010 6:41
von pferdefreund
Wenn die Datensicherungen laufen, ist ja auch viel I/O. Werden die Platten
eventuell zu heiß. Was sagt denn smart.

Verfasst: 12. Mai 2010 10:27
von schnecke
S.M.A.R.T. schreibt "optimal"

Ob das so stimmt? Ich finde es eher "suboptimal".

Auch die Temperatur im Gehäuse (Controller, Mainboard) ist durchweg im akzeptablen Bereich nicht höher 56°C

Ich verstehe es nicht...