Gelegentliches "verschwinden" der Partition

Software besorgen und anwenden
Post Reply
Message
Author
schnecke
Posts: 47
Joined: 23. Apr 2003 22:59

Gelegentliches "verschwinden" der Partition

#1 Post by schnecke »

Hallo,
ich habe hier ein ziemliches Problem. Gelegentlich passiert es, dass am Morgen eine Partition auf dem Server fehlt.
Folgender Eintrag findet sich nachts, wenn die Datensicherungen laufen, in /var/log/messages.

Code: Select all

01:47:22 server syslog-ng[3035]: Changing permissions on special file /dev/xconsole
01:47:22 server syslog-ng[3035]: Changing permissions on special file /dev/tty10
01:47:22 server kernel: aacraid: Host adapter reset request. SCSI hang ?
01:47:22 server kernel: klogd 1.4.1, ---------- state change ----------
01:48:23 server kernel: aacraid: SCSI bus appears hung
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754142
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754414
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754622
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754894
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183755166
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: Buffer I/O error on device sdc1, logical block 26181
01:48:23 server kernel: lost page write due to I/O error on sdc1
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
Am nächsten morgen ist also die Part. weg und ein umount und mount endet mit der Fehlermeldung, dass ein derartiges physiches Laufwerk nicht vorhanden sei.

Kann sich jemand erklären wo das Problem ist?
Die Platten sind über einen Raid Controller angeschlossen.

Treiberproblem? Hardwareproblem? Könnte es der RAM des Servers sein?
Wenn jemand Tipps hat, wie man hier am besten vorgeht um das Problem zu analysieren, wäre ich sehr dankbar.

Gruß,
Alex

P.S.: Der Server läuft permanent und der Fehler tritt nur sporadisch, zu letzt vor ca. 6 Monaten, auf.

User avatar
Janka
Posts: 3585
Joined: 11. Feb 2006 19:10

#2 Post by Janka »

Das es sich um nahe beieinanderliegende Sektoren handelt stinkt das meines Erachtens nach einer defekten Platte. Sind es jedes Mal dieselben Sektornummern?

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

schnecke
Posts: 47
Joined: 23. Apr 2003 22:59

#3 Post by schnecke »

Sollte dann nicht wenigstens der RAID Controller den Fehler vorher bemerken?
Der RAID Controller ist von ICP vortex und in der Console gibt's keine Hinweis auf ein defektes RAID Array.

User avatar
Janka
Posts: 3585
Joined: 11. Feb 2006 19:10

#4 Post by Janka »

Sollte er. Tut er aber offensichtlich nicht. Oder er tut es, aber du bekommst keine Meldung. Ist das jemals vorher bei dir getestet worden?

Wichtig um beurteilen zu können ob es einer der Platten oder eins der Kabel ist, ist ob die Sektornummern immer dieselben sind. Wenn ja, ist es garantiert eine der Platten. Sonst eher ein Kabel.

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

schnecke
Posts: 47
Joined: 23. Apr 2003 22:59

#5 Post by schnecke »

Also der "StorMan" von ICP hält sich bedeckt und geht von einem vollständig intakten Array aus. Auch in der Eventliste ist abgesehen von meinen Logins nichts zu sehen.

Ich bin wirklich erstaunt, sollte man doch von einem 800,- € Controller etwas mehr Information erwarten können.

knox

muß nicht immer kabel sein, auch controllersind doof

#6 Post by knox »

Ich hatte früher mal Platten von TEAC, diese haben sich auch nach kurzer Zeit* alle verabschiedet, indem sie sich sporadisch abhängten.
Der Zeitraum wurde dann kürzer ... aber man konnte noch Datensicherung machen.

Schade aber um die Mechanik, wenn die SCSI-Controller Schrott waren

*kurzer Zeit: ab 7. Monat, 6 Monate gab's Garantie ;)

schnecke
Posts: 47
Joined: 23. Apr 2003 22:59

#7 Post by schnecke »

So, neues von diesem Fall:

Gestern wieder das Ähnliche, jedoch im Vergleich zum letzten Mal:
- Andere Platte (Damals ID1 jetzt ID8)
- Anderer Connector (Damals 0 jetzt 2)

Sehr seltsam, wenn es wenigstens der gleiche Connector wäre, hätte ich auch auf das Kabel getippt, aber so....
Jemand eine Idee?
Vielen Dank,
Gruß,
Alex

pferdefreund
Posts: 35
Joined: 17. Apr 2007 16:55

#8 Post by pferdefreund »

Wenn die Datensicherungen laufen, ist ja auch viel I/O. Werden die Platten
eventuell zu heiß. Was sagt denn smart.

schnecke
Posts: 47
Joined: 23. Apr 2003 22:59

#9 Post by schnecke »

S.M.A.R.T. schreibt "optimal"

Ob das so stimmt? Ich finde es eher "suboptimal".

Auch die Temperatur im Gehäuse (Controller, Mainboard) ist durchweg im akzeptablen Bereich nicht höher 56°C

Ich verstehe es nicht...

Post Reply