Netapp Aggregat down wegen einzelnem Diskfehler

Mein neustes Leiden geht in die Kategorie der Fehler die man niemals erwarten kann. Auf unserer Netapp 3040 spukte heute eine Disk, welche dafür sorgte, dass das ganze Aggregat, bestehend aus 31 Disks, einen massiven Performanceeinbruch erlitt. Vermutlich war zwar nur die darunter liegende Raidgruppe beeinträchtigt, aber die Auswirkungen waren dennoch massiv. So verloren die daran gemounteten SAN-LUNs teilweise die Verbindung zur Storage und switchten mehrmals über alle Pfade. Was das für Exchangeserver bedeutet kann sich jeder ausdenken.
Bei der Fehleranalyse konnten wir ausschliessen dass das Problem generell mit dem Filer zu tun hatte, da andere Server mit LUNs auf dem gleichen Head keine Probleme hatten. Auch die FC-Fabrics und das Zoning waren in Ordnung und schieden somit aus. Der einzige gemeinsame Nenner der Exchangeserver, das Aggregat in welchem die LUNs lagen, an erbot sich jedoch nicht als Fehlerquelle. Doch genau hier lag der Hund begraben. Nach etwa einer halben Stunde tauchte zum ersten mal im \etc\messages folgender Eintrag auf:
scsi.path.excessiveErrors:error]: Excessive errors encountered by adapter 0c on disk device 0c.#.
Leider wurde die Disk aber nicht als fehlerhaft markiert und konnte somit das System weiter stören. Nach einer weiteren Analyse und einem manuellen deaktivieren der Disk erholte sich das Aggregat dann aber schlagartig wieder. Der alles rettende Zauberbefehl lautete diesmal wie folgt. Der -o Switch erzwingt ein sofortiges abschalten der Disk, da die Storage ansonsten zuerst noch versucht die fehlerhafte Disk auf eine Spare zu synchronisieren.
disk fail -o <diskid>
Eine redundante Storage, redundate FC-Fabrics, redundante HBAs und ein fleissige Snapdrive das brav versucht seine LUNs am Leben zu halten auf der einen Seite unterliegen einer fehlerhaften Disk auf der anderen Seite - und das alles an einem Freitag. Ich bin schon mal gespannt auf die Analyse von Netapp. Zum Glück ist jetzt Freitag Abend. :-)

Print | posted @ Friday, February 29, 2008 6:00 PM