Kann sich jemand darauf einen Reim machen?

Hi,

ich habe einen Server mit 4 Festplatten in einem RAID5. Darauf ist ein Debian Lenny installiert. Der Rest ist als max 2TB LUNs über iSCSI für ESX Server freigegeben. Vorletztes Wochenende haben sich User beschwert, dass VMs nicht mehr erreichbar wären. Ich habe dann herausgefunden, dass der RAID Controller (ein 3ware Gerät) gerade seinen Verification Prozess laufen hat und habe es einfach mal darauf geschoben. Letztes Wochenende hatten wir dasselbe wieder. Nach einem Reboot des Hosts kam er nicht mehr hoch: GRUB war kaputt.

Sieht da irgendjemand einen Zusammenhang? Mir fällt es irgendwie schwer zu glauben, dass der RAID Controller mit seinem Verifizierungezeugs verantwortlich für einen kaputten GRUB sein soll. Hat jemand auch schonmal Storage Disconnects im Zusammenhang mit dem Verification Prozess gesehen?

Bin grad etwas ratlos ...

ciao
serow
 
Raid degraded, Festplatte kaputt, kein Grub auf den anderen Platten?

a) Raid-Bios nach degradeten und/oder kaputten Platten durchsuchen, oder
b) Live-System booten, /proc/mdstat befragen

Fällt mir jetzt so auf Anhieb ein.
 
Hi,

ich denke deine Ideen kann ich verneinen, denn das ganze System ist auf einem Hardware RAID installiert (inklusive GRUB). Degradet ist auch nichts:

Code:
iscsi2:~# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    VERIFYING      -       59%     256K    5587.9    RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            WDC WD2002FYPS-01U1 
p1    OK             u0   1.82 TB   SATA  1   -            WDC WD2002FYPS-01U1 
p2    OK             u0   1.82 TB   SATA  2   -            WDC WD2002FYPS-01U1 
p3    OK             u0   1.82 TB   SATA  3   -            WDC WD2002FYPS-01U1 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx  

iscsi2:~# tw_cli /c0/u0 show

Unit     UnitType  Status         %RCmpl  %V/I/M  Port  Stripe  Size(GB)
------------------------------------------------------------------------
u0       RAID-5    VERIFYING      -       59%     -     256K    5587.9    
u0-0     DISK      OK             -       -       p0    -       1862.63   
u0-1     DISK      OK             -       -       p1    -       1862.63   
u0-2     DISK      OK             -       -       p2    -       1862.63   
u0-3     DISK      OK             -       -       p3    -       1862.63   
u0/v0    Volume    -              -       -       -     -       5587.9    

iscsi2:~#

ciao
serow
 
theoretisch könnte es sein, dass das die partionen nicht gefunden werden kann, somit würde es am Modell liegen... schonmal probiert GRUB neuzuinstallieren bzw ein BIOS update zu machen?
 
Hi,

GRUB hab ich sofort nach dem Vorfall wieder installiert, das System musste ja wieder hochfahren. BIOS Update kann ich mal ausprobiere.

cu
serow
 
Nabend,

3Ware 9650SE puuhh, also wenn Ihr noch Gelder übrig habt würde ich den durch einen anderen ersetzen, z.b. durch einen Adaptec 5405.
Glaub mir mit 3ware hab ich in den letzten 8 Monaten so viel Sch..... gehabt das ich von den dingern geheilt bin.

Aber ich versuche dir zu helfen.
Unter /var/log/ gibt es vom Controller logfiles die mit tw_aen anfangen.
Dort würd ich mal nach Meldungen vom Controller schauen.

In der aktuellen Beta Firmware (die ich auch im einsatz habe damit es halbwegs stabil läuft) wurden einige wichtige Sachen gepatcht.
Vor allem:
CR 2196: Unexpected controller soft resets
Fixed an issue with regards to deferral of write and read commands to help eliminate unexpected soft resets.

Rest siehe Readme im zip file.

Und wenn das nicht hilft würde ich versichen das Raid von 256K Stripe auf 64K Stripe zu migrieren.

Wenn in dem Logfile vom Controller Interesante Meldungen drin stehen kannste die ja mal posten.

Viel glück.

mfg
 
Zurück
Oben