Defekte HDD tauschen bei einem IBM i VIOS/AIX System

Diese Woche war es endlich so weit.
In unserem IBM i System, dass wir im Februar auf VIOS umgerüstet haben, war eine Platte defekt.
Alle haben uns davor gewarnt auf VIOS umzurüsten, weil dann kein Techniker mehr helfen könnte und alles zu spät wäre.

Das Problem ist halt, dass die Techniker, die normal unterwegs sind um die Platten tauschen sich nicht mit AIX auskennen und der Tausch dann für gewöhnlich Kundenaufgabe ist.

So schlimm wars dann doch nicht 🙂
Zusammen mit unserem Stamm-Techniker habe ich die Platte dann recht fix getauscht.
Ist einfacher als im IBM i OS.

Unsere aktuelle Konfiguration sieht so aus:
Eine 8202-E4B mit 2 angeschlossenen EXP24S an PCI-X SAS Controllern.
Verwaltet von einer HMC mit V7R7.3.0.0.
Installiert ist eine VIOS 2.1 Partition und 5 IBM i LPARS.

Aus unseren 48 Platten in den EXP24 haben wir 6 RAID 6 Arrays mit je 8 Platten gemacht.
Darauf haben wir dann die vom VIOS verwalteten logical Volumes.

Somit ist das RAID und die Hardware unabhängig von den Client LPARS.
Es sollte also möglich sein eine Platte zu tauschen, ohne dass die Clients etwas davon mitbekommen.

Das Problem:

Erstmal muss man jetzt mitbekommen, dass überhaupt ne Platte kaputt ist.
Da die IBM i Partitionen keinen Hardwarezugriff mehr haben, kriegen die das nämlich nicht mit.
Lediglich das VIOS und die HMC merken das.

Also muss man entweder per SNMP eins der beiden Systeme überwachen oder man logt sich drauf ein und guckt.
Da unsere Ãœberwachung noch in der Mache ist, habe ich den Fehler beim einloggen gesehen.

HMC FehlerFehler 2Fehler 1

Ok, hier läuft also was falsch.
Was genau, sieht man im VIOS Errorlog.

Also logt man sich im VIOS mit dem padmin User ein und tippt „errlog -ls„.
Dann gibts z.B. folgendes Logfile: https://myangelone.com/files/errorlog.txt

Da drin sind dann folgende Zeilen besonders interessant:

Date/Time:       Thu Jun 20 15:07:30 CDT 2013
Sequence Number: 273
Machine Id:      00F6BF394C00
Node Id:         viospr
Class:           H
Type:            PERM
WPAR:            Global
Resource Name:   sissas4
Resource Class:
Resource Type:
Location:
VPD:
PCI-X266 Ext Tri-x4 3Gb SAS RAID Adapter        :
Part Number……………..44V4579
FRU Number………………74Y7207
Serial Number……………YL10D0269040
Manufacture ID…………..000D
EC Level………………..0
ROM Level.(alterable)…….04210037
Customer Card ID Number…..572F
Product Specific.(Z1)…….1

Description
DEVICE OR MEDIA ERROR

Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
PROBLEM DATA
0000 0800 0000 1400 0000 0000 0000 0000 0000 0000 1910 00F0 0444 0000 0101 0000
0421 0037 0000 0011 572F FFF4 5000 00E1 17ED 0140 0000 0000 0000 0000 0000 0000

REASON FOR FAILURE
Sector reassign limit exceeded

DISK INFORMATION
Resource  Vendor/Product ID S/N      World Wide ID
00001400  IBM      MBE2147R D300D0W0 500000E117ED0140

Das sagt uns, dass die Platte mit Resourcen ID 1400 am Controller sissas4 zu viele fehlerhafte Sektoren hatte.
Also muss die Platte getauscht werden.
-> IBM anrufen, Platte kommen lassen, und vor Ort wieder auf die VIOS einloggen

Der Tausch:

  • Zuerst muss man die Platte physisch tauschen.
  • Danach muss man die Hardwareerkennung laufen lassen.
  • Dann den RAID Array mit der neu erkannten Platte wieder aufbauen.

Dafür logt man sich wieder als padmin auf der VIOS ein und ruft das „diagmenu“ auf.

Dann geht man nach „Task Selection (Diagnostics, Advanced Diagnostics, Service Aids, etc.)
Dann „RAID Array Manager“ und „IBM SAS Disk Array Manager“ (in unserem Fall ists SAS).
Zuletzt dann „List SAS Disk Array Configuration„.

Hier muss man dann den Controller wählen, dessen Configuration man sehen will.
In unserem Fall „sissas4“ laut errorlog.

Da hat man dann irgendwo folgendes Bild:

Fehler

Hier sieht man die pdisk44 mit Resource ID 1400 im Status failed.
Dadurch ist der dazugehörige RAID Array hdisk7 „degraded„.

Also tauschen wir jetzt die pdisk44 durch eine neue aus.
Das geht nicht im „RAID Array Manager„, sondern unter dem Punkt „Hot Plug Task„.
Dann „SCSI and SCSI RAID Hot Plug Manager“ und „Replace/Remove a Device Attached to an SCSI Hot Swap Enclosure Device„.

Hier sieht man jetzt, dass unsere pdisk44 im Slot 21 steckt.
Man wählt die Platte aus und drückt ENTER.
Daraufhin gibts folgendes Bild:

ReplaceDie LED an der Platte leuchtet jetzt orange.
Man kann sie nun einfach aus dem Rack ziehen und die neue reinstecken.
Danach drückt man ENTER und landet wieder im vorherigen Bild.

Jetzt muss man die Hardwareerkennung aufrufen.
Das erfolgt durch den Punkt „Configure Added/Replaced Devices“ im Hot Plug Manager unterhalb von „Replace/Remove a Device Attached to an SCSI Hot Swap Enclosure Device„.

Jetzt geht man in den „RAID Array Manager„/“IBM SAS Disk Array Manager“ und wählt „Reconstruct a SAS Disk Array„.
Hier wird dann, wenn man Glück hat, die soeben getauschte und von der Hardwareerkennung erkannte Platte angezeigt.
Diese wählt man mit ENTER aus und bestätigt den Reconstruct nochmal mit ENTER.
Dadurch wird der Verweis auf die alte Platte aus dem RAID geworfen und die neue eingebunden.
Zum Schluss wird diese mit Daten vollgeschrieben.

789

Das hat bei unserem 8x139GB RAID 6 Array ca. 2,5h gedauert.
In dieser Zeit konnte das Array aber komplett weitergenutzt werden.

Den Status des Rebuilds kann man im RAID Array Manager verfolgen.

Rebuild

Herzlichen Glückwunsch: Ihr habt das unmögliche geschafft und eine AIX Platte in 5min getauscht.
Ist sogar einfacher als im i OS.

Zum Schluss muss man noch die Fehler auf der HMC löschen, damit alles wieder schön grün wird.

OKHMC OK