Gelegentliches "verschwinden" der Partition

Software besorgen und anwenden
Antworten
Nachricht
Autor
schnecke
Beiträge: 47
Registriert: 23. Apr 2003 22:59

Gelegentliches "verschwinden" der Partition

#1 Beitrag von schnecke » 04. Feb 2010 19:57

Hallo,
ich habe hier ein ziemliches Problem. Gelegentlich passiert es, dass am Morgen eine Partition auf dem Server fehlt.
Folgender Eintrag findet sich nachts, wenn die Datensicherungen laufen, in /var/log/messages.

Code: Alles auswählen

01:47:22 server syslog-ng[3035]: Changing permissions on special file /dev/xconsole
01:47:22 server syslog-ng[3035]: Changing permissions on special file /dev/tty10
01:47:22 server kernel: aacraid: Host adapter reset request. SCSI hang ?
01:47:22 server kernel: klogd 1.4.1, ---------- state change ----------
01:48:23 server kernel: aacraid: SCSI bus appears hung
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: scsi: Device offlined - not ready after error recovery
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754142
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754414
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754622
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183754894
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: SCSI error: return code = 0x6000000
01:48:23 server kernel: end_request: I/O error, dev sdc, sector 4183755166
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
01:48:23 server kernel: Buffer I/O error on device sdc1, logical block 26181
01:48:23 server kernel: lost page write due to I/O error on sdc1
01:48:23 server kernel: sd 6:0:0:0: rejecting I/O to offline device
Am nächsten morgen ist also die Part. weg und ein umount und mount endet mit der Fehlermeldung, dass ein derartiges physiches Laufwerk nicht vorhanden sei.

Kann sich jemand erklären wo das Problem ist?
Die Platten sind über einen Raid Controller angeschlossen.

Treiberproblem? Hardwareproblem? Könnte es der RAM des Servers sein?
Wenn jemand Tipps hat, wie man hier am besten vorgeht um das Problem zu analysieren, wäre ich sehr dankbar.

Gruß,
Alex

P.S.: Der Server läuft permanent und der Fehler tritt nur sporadisch, zu letzt vor ca. 6 Monaten, auf.

Benutzeravatar
Janka
Beiträge: 3585
Registriert: 11. Feb 2006 19:10

#2 Beitrag von Janka » 04. Feb 2010 20:54

Das es sich um nahe beieinanderliegende Sektoren handelt stinkt das meines Erachtens nach einer defekten Platte. Sind es jedes Mal dieselben Sektornummern?

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

schnecke
Beiträge: 47
Registriert: 23. Apr 2003 22:59

#3 Beitrag von schnecke » 04. Feb 2010 22:43

Sollte dann nicht wenigstens der RAID Controller den Fehler vorher bemerken?
Der RAID Controller ist von ICP vortex und in der Console gibt's keine Hinweis auf ein defektes RAID Array.

Benutzeravatar
Janka
Beiträge: 3585
Registriert: 11. Feb 2006 19:10

#4 Beitrag von Janka » 05. Feb 2010 11:47

Sollte er. Tut er aber offensichtlich nicht. Oder er tut es, aber du bekommst keine Meldung. Ist das jemals vorher bei dir getestet worden?

Wichtig um beurteilen zu können ob es einer der Platten oder eins der Kabel ist, ist ob die Sektornummern immer dieselben sind. Wenn ja, ist es garantiert eine der Platten. Sonst eher ein Kabel.

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

schnecke
Beiträge: 47
Registriert: 23. Apr 2003 22:59

#5 Beitrag von schnecke » 05. Feb 2010 12:12

Also der "StorMan" von ICP hält sich bedeckt und geht von einem vollständig intakten Array aus. Auch in der Eventliste ist abgesehen von meinen Logins nichts zu sehen.

Ich bin wirklich erstaunt, sollte man doch von einem 800,- € Controller etwas mehr Information erwarten können.

knox

muß nicht immer kabel sein, auch controllersind doof

#6 Beitrag von knox » 05. Feb 2010 16:33

Ich hatte früher mal Platten von TEAC, diese haben sich auch nach kurzer Zeit* alle verabschiedet, indem sie sich sporadisch abhängten.
Der Zeitraum wurde dann kürzer ... aber man konnte noch Datensicherung machen.

Schade aber um die Mechanik, wenn die SCSI-Controller Schrott waren

*kurzer Zeit: ab 7. Monat, 6 Monate gab's Garantie ;)

schnecke
Beiträge: 47
Registriert: 23. Apr 2003 22:59

#7 Beitrag von schnecke » 11. Mai 2010 9:03

So, neues von diesem Fall:

Gestern wieder das Ähnliche, jedoch im Vergleich zum letzten Mal:
- Andere Platte (Damals ID1 jetzt ID8)
- Anderer Connector (Damals 0 jetzt 2)

Sehr seltsam, wenn es wenigstens der gleiche Connector wäre, hätte ich auch auf das Kabel getippt, aber so....
Jemand eine Idee?
Vielen Dank,
Gruß,
Alex

pferdefreund
Beiträge: 35
Registriert: 17. Apr 2007 16:55

#8 Beitrag von pferdefreund » 12. Mai 2010 6:41

Wenn die Datensicherungen laufen, ist ja auch viel I/O. Werden die Platten
eventuell zu heiß. Was sagt denn smart.

schnecke
Beiträge: 47
Registriert: 23. Apr 2003 22:59

#9 Beitrag von schnecke » 12. Mai 2010 10:27

S.M.A.R.T. schreibt "optimal"

Ob das so stimmt? Ich finde es eher "suboptimal".

Auch die Temperatur im Gehäuse (Controller, Mainboard) ist durchweg im akzeptablen Bereich nicht höher 56°C

Ich verstehe es nicht...

Antworten