Platte platt - oder quicklebendig?

Festplattendiagnose leicht gemacht

Sie kennen das Problem bestimmt: Eine Festplatte gibt den Geist auf, und nun heißt es im besten Fall Backup zurückspielen, im schlechtesten Fall Datenretter beauftragen oder den auf immer verschollenen Daten nachtrauern. Wäre es nicht nett, wenn die Festplatte schon vorher auf ihr baldiges Ableben hinweisen könnte? Nun, das geht! Recht oft jedenfalls...

Einleitende Theorie
SMART-Werte auslesen und interpretieren
Gezielte Diagnose
Zu SCSI-Platten
Bekannt unzuverlässige Plattenserien

Graue Theorie

Moderne Festplatten bringen nämlich teils recht umfassende Selbstdiagnosemechanismen mit, bei IDE- und Serial-ATA-Platten ist dafür SMART (Self-Monitoring Analysis and Reporting Technology) standardisiert, bei SCSI-Gerät gibt es PFA (Predictive Failure Analysis). Diese sind in zweierlei Hinsicht nützlich:

Durch die Überwachung von kritischen Betriebsparametern können potentiell gefährliche Entwicklungen festgestellt werden.
Des weiteren können gezielt Selbsttests durchgeführt werden, auch in Ruhephasen während des Betriebes (z.B. Offline-Scans).

Nicht vorherzusehen sind plötzliche Ausfälle z.B. von ICs oder Steckverbindungen, irgendwo hat eben alles seine Grenzen.

Bunte Praxis

SMART-Werte auslesen und interpretieren

Allgemeines

Wenden wir uns nun einigen der interessanteren Dinge zu, den SMART-Attributen. Diese haben an sich nur Nummern, viele davon werden aber von allen Herstellern zum selben Zweck benutzt (Ausnahmen siehe z.B. smartctl-Manpage). Die konkrete Handhabung der Werte kann allerdings von Hersteller zu Hersteller stark, von Modell zu Modell mäßig abweichen, also Vorsicht vor Apfelbirnenvergleichen!

In den Ausgaben von SMART-Überwachungsprogrammen wie DTemp (Windows) oder den Smartmontools (Linux, Windows, FreeBSD, NetBSD, Solaris; Download) finden sich pro SMART-Attribut zumeist folgende Angaben:

Nummer des Attributs
(wahrscheinlicher) Name
normierter Wert (Value)
bislang schlechtester normierter Wert (Worst)
Schwellwert (Thresh)
Rohdaten (Raw)

Der "Value" stellt hierbei die Interpretation des jeweiligen Betriebsparameters durch die Platten-Firmware dar, wobei höher = besser gilt und im Regelfalle auf 100 oder 253 normiert wird (Ausnahmen: UDMA CRC Error Count mit 200 oder das Attribut "Temperature").
"Worst" ist der bis dato schlechteste (kleinste) registrierte "Value", und "Thresh" gibt das Minimum dafür an, unterhalb dessen Alarm geschlagen bzw. "SMART status: FAILED" gemeldet wird.
Die Rohdaten ("Raw") sind nicht bei allen Attributen vorhanden, können aber zuweilen wertvolle Hinweise geben (z.B. Betriebsstunden, Zahl defekter Sektoren usw.).

Praktisches Augenmerk

...gilt bei mir zuerst dem "Reallocated Sector Count" und ggf. dem "Reallocation Event Count", um genau zu sein deren "Raw"-Werten. Ist alles brav auf 0, prima - keine beim Schreiben als defekt identifizierten und umgemappten Sektoren. Sind einige wenige davon vorhanden, so ist das je nach Plattentyp und -alter mehr oder weniger bedenklich (bei einigen Platten ist das fast schon die Regel). Sollten um die 50 (dezimal) oder gar noch mehr vorhanden sein, schleunigst Daten sichern und Platte austauschen.

Danach ist der "UDMA CRC Error Count" dran, dessen "Raw"-Wert Auskunft über Übertragungsfehler z.B. durch Kabelprobleme gibt.

Auch die "Raw Read Error Rate" und die "Seek Error Rate", genauer deren "Value", werden üblicherweise inspiziert und mit den Werten ähnlicher Platten verglichen. Erfahrungssache, klar.

Zeigt die Platte Anlaufprobleme, so werden auch "Spin Up Time" und "Spin Retry Count" begutachtet.

Die restlichen Attribute werden mit "Augenmaß und Handgewicht" inspiziert, auf welchen Wert sie wohl normiert sein mögen und wie weit sie drunter liegen.

Bei der Inspektion der SMART-Werte sollte man nicht außer Acht lassen, daß Festplatten unterschiedlicher Hersteller Dinge oft auch sehr unterschiedlich bewerten: Liegt etwa der "Value" der "Raw Read Error Rate" bei einer IBM-Platte auch nur wenig unter 100 (z.B. 96), so ist oft schon etwas faul - eindeutige Unterreaktion. Bei Seagates dagegen sind auf den ersten Blick fast schon erschreckend niedrig wirkende Werte von um die 60 völlig normal.

SMART-Werte: Beispiele

Ich habe einmal Google Groups zum Thema SMART-Werte einiger gängiger Plattenserien befragt. Nachfolgend einige Ergebnisse, die nebenbei noch die Vielfalt der Möglichkeiten zur Ermittlung der SMART-Daten bezeugen.

Ich meine mal SMART-Werte eines uralten Quantenfeuerballs, ähm, einer uralten Quantum Fireball der 1-GB-Klasse (540, 640, 1080 oder 1280) gesehen zu haben, konnte sie aber auf die Schnelle nicht auftreiben. Wenn sie wer findet, bitte melden. (Quantum hat SMART wohl zuerst implementiert; schon eine Lightning 365AT von '94 rückt ein paar SMART-Werte raus.)

Gezielte Diagnose von B bis Y

Hier müssen auch gestandene Windows-User auf smartctl aus den o.g. Smartmontools zurückgreifen, in das Programm für die Kommandozeile hat man sich aber mit Hilfe von Onlinehilfe und Manpage recht schnell eingefuchst (IDE-Geräte mit /dev/hd[a|b|c|...] und SCSI-Geräte mit /dev/scsi<Adapter><ID> abklappern; sonst ist die Option -a vorerst die interessanteste).

Mit smartctl kann man u.a. dreierlei Arten von Tests anstoßen:

kurzer Selbsttest: -t short
langer Selbsttest: -t long
Offline-Scan: -t offline

Alle drei Varianten beeinträchtigen die Nutzung der jeweiligen Platte nur minimal, ständige Unterbrechungen durch Zugriffe verlängern aber natürlich die Testdauer. Die Ausgabe von smartctl -a sollte die übliche Testdauer unter Short self-test routine recommended polling time bzw. Extended self-test routine recommended polling time aufführen.

Achtung: Insbesondere Festplatten aus IBMs Deskstar-75GXP-Serie (DTLAs) benötigen für korrektes Funktionieren des Offlinescans ein Firmwareupdate! Sonst droht Datenverlust. (Naja, die Dinger sind auch so unzuverlässig genug.) Dies scheint auch 60GXPs zu betreffen.

Mit smartctl lassen sich auch automatische Offlinescans (de-)aktivieren sovie mancherlei andere Dinge anstellen, die zu beschreiben den Rahmen dieser Seite allerdings sprengen würde.

Ich würde empfehlen, bei jeder neuen Platte mindestens einmal einen langen Selbsttest und einen Offline-Scan durchlaufen zu lassen. Wenn man dazu noch ein Programme hat, das die Platte mit zufälligen Zugriffen quält, kann ein "Burn-In" damit auch nicht schaden (natürlich nicht gleichzeitig mit den anderen Tests durchführen).

SMART à la SCSI

Bei SCSI-Geräten ist die Ausgabe von smartctl -a im Regelfalle etwas anders strukturiert; hier erfährt man z.B. etwas über korrigierbare und nicht korrigierbare Fehler sowie dadurch auftretende Verzögerungen, ggf. eine Liste durchgeführter Selbsttests und bei Vorhandensein eines Temperatursensors auch die Temperatur.

Bekannt unzuverlässige Platten

Bei manchen Plattenserien ist einfach der Wurm drin - trotz ausreichender Kühlung usw. geben sie gern mal den Löffel ab. Ich würde z.B. auf folgenden Typen nur ungern wichtige Daten deponieren:

IBM Deskstar (vulgo: Deathstar) 75GXP (DTLA-3070xx bzw. DTLA-3050xx, vmtl. Kombination verschiedener Faktoren wie Firmwarebugs, gewagter Konstruktion mit sich lösenden Schrauben, wenig solider Stromstecker, interner Kontaktprobleme) bzw. 60GXP (IC35L0xxAVER07-0); auch die Ultrastars aus der Zeit waren nicht gerade für übermäßige Zuverlässigkeit bekannt
Fujitsu MPG (Fabrikationsfehler in verbautem Cirrus-Logic-Chip, Ausfallquote nahe 100%)
Quantum, diverse (u.a. Fireball CX, lct-Serie) mit "Explosivchip" (Motorsteuerung, Philips TDA5247HT oder Panasonic AN8428NGAK)
Seagate Barracuda ATA II (gern def. Sektoren, recht hitzköpfig)

Etwas mißtrauisch war ich offenbar nicht zu Unrecht gegenüber Maxtors der letzten Generation, besonders die DiamondMax Plus 9 fällt öfters durch zahlreiche defekte Sektoren auf (die auch die MaxLine II Plus zu plagen scheinen). Nun gut, angesichts der wohl nicht unerheblichen Probleme beim Umstieg auf 80-GB-Platter nicht so sehr verwunderlich; auch die erste Generation von FDB-Motoren sorgte für mehr Abwärme als man dies bei Samsungs und aktuellen Modellen anderer Hersteller sieht. Die DM+9 erinnert insgesamt etwas an die Barracuda ATA II. Die aktuelle DM10 gehört übrigens im Gegensatz zum Vorgängermodell zu den (im Leerlauf) kühlsten 7200ern.

Daneben gab es zumindest bei frühen Seagate Barracuda 7200.8 mit 300 und 400 GB Probleme mit zu heiß werdenden Motorcontrollern, gerade in den offenbar nicht optimal belüfteten externen Gehäusen der Firma. Da konnte es passieren, daß sich die Platte mal eben abschaltete.

Noch ein paar Plattentypen, die sich nicht gerade mit Ruhm bekleckert haben:

Seagate Medalist Pro, fast alle: Die 5400er werden ziemlich warm (bei ungünstiger Einbaulage zu warm), die 7200er sind (neben der Drehzahl auch der erstmals verbauten und in Sachen Reibungsreduzierung noch nicht ganz so ausgereiften Flüssigkeitslager wegen) sehr hitzig - gerade letztere sollten auf jeden Fall aktiv gekühlt werden (bzw. gekühlt worden sein, sonst sind sie jetzt schon futsch).
Quaxtors (Maxtors mit "Quantum inside"), wie die D740X und D540X-4K, haben keinen zu überzeugenden Gesamteindruck hinterlassen, was die Zuverlässigkeit angeht.
Dann gab es da mal WDs, die mit der sehr frühen IDE-Abfrage von damals neuen TX-Boards (1997...) nicht zurechtkamen bzw. aufgrund eines Firmwarebugs die Köpfe aus der Parkposition fuhren, bevor der Platte ihre Nenndrehzahl erreicht hatte. Auf die Dauer tat das weder Plattern noch Köpfen gut.

Es fällt nicht direkt unter unzuverlässig, aber wer von einer älteren WD (z.B. 40GB/Platter-Generation, ca. 2001/2002) mit Kugellagern und deren charakteristischem Sägen geplagt ist, dürfte davon auch nicht übermäßig begeistert sein. Habe mal so eine Kreissäge anhören dürfen, und das Teil war allen Ernstes deutlich nervtötender als eine alte Fujitsu MAJ3091MP (10.000er SCSI von 2000 und an sich als noch tolerabel zu bezeichnen, sofern gut entkoppelt und mit schallschluckenden Materialien im näheren Umfeld versehen, welche der überwiegend hochfrequenten Motorgeräusche wegen eine ganze Menge brachten). Immerhin, seit Anfang 2005 werden auch bei WD endlich durchgängig Flüssigkeitslager verbaut, dazu sind die aktuellen Exemplare auch recht kühl.

Wer bei der Erhebung von Zuverlässigkeitsdaten mithelfen will, sollte sich einen Login für storagereview.com besorgen und seine Platten - lebendige wie tote - beim "Reliability Survey" eintragen. Zumindest die dort getesteten Platten stehen zur Auswahl, leider nicht immer alle Modelle einer Familie.

Eine sehr interessante Seite zum Thema, die mir kürzlich über den Weg lief, ist "Most frequent typical malfunctions in various HDD families" - hier werden Probleme und deren Reparatur bei MPGs, Deathstars, Explosivchip-Quantums u.a. erklärt. Das Reparieren ist natürlich im Regelfall nur was für Leute mit dem entsprechenden Equipment - Vielfüßler ein- und auslöten ist wahrlich kein Kinderspiel, als ob SMD nicht so schon knufflig genug wäre.