Artikel mit ‘hardware’ getagged

Hardware-Lieferzeiten

Montag, 11. Januar 2010

Unsere Serverhardware bestellen wir inzwischen fast ausschließlich bei der Thomas-Krenn.AG. Nicht zuletzt, seit wir Ende letzten Jahres dort eine Betriebsführung mitmachen konnten, haben wir noch mehr Argumente dafür: Es geht einfach sauschnell, und das ist nicht zuletzt den hervorragend integrierten Prozessen bei Krenn geschuldet, die den Webshop, das Warenwirtschaftssystem und das RMA-System „aus einem Guss“ realisieren, mit hausintern entwickelter Software. Kurz gesagt: Was im Shop bestellt wird (und dort als „sofort lieferbar“ gekennzeichnet ist), kann typischerweise nach zwei Stunden per Paketdienst das Haus verlassen – also schon am nächsten Tag geliefert sein.

Ehrlich gesagt fehlt mir seitdem zunehmend das Verständnis dafür, wieso wesentlich größere Unternehmen wie Dell, die ebenfalls auf „Build-to-Order“ getrimmt sind, so elend langsam arbeiten.

Letzten Mittwoch hab ich dort was bestellt. Nichts Kompliziertes, zwei Vostro-Desktops ohne Extras. Bezahlt per Kreditkarte. Dann passierte erstmal zwei Tage lang nichts.

Am Freitag bekam ich eine handgeschriebene Mail in eher gebrochenem Deutsch („Hiermit bestätigen wir die Erhaltung ihrer Bestellung“, als ob „Erhalt“ und „Erhaltung“ synonym wären, aber es ist natürlich auch beruhigend, dass meine Bestellung vor dem Verfall bewahrt wird): Meine Kreditkarte konnte nicht belastet werden. Und ich Dummerchen dachte, sowas würde während einer Bestellung live geprüft – aber wohl nicht. Man bat mich um Mitteilung einer alternativen Zahlungsmethode. Hab ich dann auch am gleichen Tag gemacht und für diese Bestellung Bankeinzug genehmigt. Nebenbei kann sich auch meine Bank nicht erklären, was es für ein Problem mit meiner Kreditkarte geben sollte, denn das Limit böte eigentlich ausreichend Spielraum, und ich hatte in den letzten Wochen auch nichts anderes über die Karte gebucht. Sei’s drum.

Dann war natürlich erstmal Wochenende. Heute, am Montag, bekomme ich schließlich die Mitteilung, dass der Auftrag nun gebucht sei und man den Zahlungseingang abwarten würde. Herrje. Per Kreditkarte würde der Betrag vorab nur reserviert und erst nach Auslieferung der Bestellung auch gebucht. Nun will Dell das Geld aber gleich, und ein angehängtes PDF verrät mir den prognostizierten Liefertermin: 28.01.2010. In siebzehn Tagen! Oder ausgehend vom Bestelldatum: Satte drei Wochen, bis das Gerät hier ist.

Für ein Kind der Internet-Generation, das von Amazon & Co schon so „versaut“ ist, dass es eigentlich immer von „heute bestellt, morgen geliefert“ ausgeht, ist das harter Tobak – insbesondere, wenn andere Anbieter wie Krenn kurzfristige Lieferungen scheinbar spielend hinbekommen.

Angeschossen? Abgeknallt!

Samstag, 14. November 2009

Für einen Kunden adminstrieren wir einen Server, den er sich selbst bei Anbieter S gemietet hat. S ist einer der Großen der Branche; einer von denen, die in die c’t immer bunte Prospekte einlegen lassen, also nicht gerade ein Wald-und-Wiesen-Provider.

Da der fragliche Server mit einem Software-RAID1 bereitgestellt wird, fragen wir per Nagios regelmäßig den mdadm-Status ab, um rechtzeitig bei Plattenproblemen informiert zu werden. Vor wenigen Tagen war es dann leider auch tatsächlich soweit: Das RAID1 ist degraded, eine Platte fehlt. Da wir auf die Hardware keinen Zugriff haben, vereinbarten wir mit dem Kunden, dass wir uns direkt mit S in Verbindung setzen, um die defekte Festplatte auswechseln zu lassen – im Rahmen unserer Wartungsverträge mit Kunden, die bei externen Providern hosten, ist das für uns selbstverständlich.

Der Anruf bei der Hotline von S verlief jedoch gänzlich anders als erwartet. Ich versuche es mal aus dem Gedächtnis wiederzugeben und bitte für leichte Anpassung in der Dramaturgie um Verständnis – inhaltlich hat das Telefonat wirklich so stattgefunden.

Hotline: „Anbieter S, Kundenservice, guten Tag!“

Ich so: „Guten Tag! Bei einem Server, den wir für einen Ihrer Kunden warten, ist eine Festplatte ausgefallen. Das Gerät läuft aber noch, da es ein RAID1 hat. Wie schnell können Sie denn da die Festplatte tauschen? Geht das per Hot-Swap im laufenden Betrieb, oder muss da eine kurze Downtime erfolgen?“

Er so: „Nein, die Festplatte wechseln wir nicht aus. Wir stellen Ihnen einen neuen Server bereit.“

Ich so: „Ääääh … aber es ist doch nur eine der beiden Festplatten kaputt. Der Server an sich läuft ja noch …“

Er so: „Das ist egal. Wenn es Hardwareprobleme gibt, bekommen Sie einen neuen Server.“

Ich so: „Wieso tauschen Sie denn nicht einfach die defekte Platte aus und dann ist alles wieder gut?“

Er so: „Nein, sowas machen wir grundsätzlich nicht. Sowas macht überhaupt kein Internetprovider. Höchstens ein kleines Systemhaus.“

Ich so: „Entschuldigung, aber da muss ich Ihnen widersprechen. Wir betreuen im Kundenauftrag auch noch Server bei H1, H2 und bei P, und bei allen gab es im Lauf der Jahre auch schon mal Festplattenschäden. Ich kann Ihnen versichern: Jeder dieser Anbieter [nebenbei allesamt in der Liga von S] hat anstandslos die defekte Festplatte ausgetauscht, und dann lief das RAID1 wieder.“

Er so: „Das kann ich mir nicht vorstellen. Vielleicht früher mal. Versuchen Sie das heute mal. Das wird Ihnen keiner machen.“

Ich so: „Selbst wenn Sie Recht hätten: Ist denn der Umstand, dass andere Anbieter schlechten Service bieten, für Sie Entschuldigung genug, um auch selbst schlechten Service zu bieten?“

Er so: „Ich verstehe Sie nicht. Sie bekommen doch einen ganz neuen Server. Das ist doch gut für Sie!“

Ich so: „Nehmen wir das mal so hin. Wie wäre denn dann der Ablauf; wie gehen wir strategisch am Besten vor?“

Er so: „Sie versetzen Ihren bisherigen Server in den Neuinstallationsmodus und geben uns dann Bescheid. Wir stellen Ihnen dann den neuen Server bereit.“

Ich so: „Und was ist mit den Daten des Servers?“

Er so: „Ich verstehe die Frage nicht.“ [Kein Scherz! Das hat er wirklich gesagt!]

Ich so: „Naja, wenn Sie einen neuen Server bereitstellen, dann ist der ja erstmal nur mit dem nackten Betriebssystem installiert. Wie kommen denn die Daten von dem alten Server auf den neuen? Oder kopieren Sie die gleich mit rüber?“

Er so: „Welche Daten? Wenn Sie den alten Server in den Neuinstallationsmodus versetzen, dann werden alle Daten von der Festeplatte gelöscht. Insofern sind da ja keine Daten mehr zum Übertragen auf den neuen Server.“

Ich so: „Ach so, dann stellen Sie uns den neuen Server doch einfach vorab bereit, wir kopieren die Daten rüber, und wenn alles drüben ist, können Sie den alten Server abschalten.“

Er so: „Nein, das geht nicht.“

Ich so: „Bitte? Wieso das denn nicht?“

Er so: „Der neue Server bekommt ja die gleiche IP-Adresse. Wissen Sie, es kann grundsätzlich nicht zwei Server mit der gleichen IP-Adresse geben, das geht einfach technisch nicht.“

Ich so: „Stellen Sie sich vor: Das weiß ich. Aber Sie können ihm ja einfach vorübergehend eine andere, temporäre IP geben, damit wir die Daten übertragen können, und danach wird jene IP wieder freigegeben.“

Er so: „Nein, das können wir nicht machen.“

Ich so: „Dann verraten Sie mir doch bitte mal, wie ich die Daten vom alten auf den neuen Server bekommen soll, wenn der neue Server noch nicht da ist, während der alte noch läuft, und wenn der alte dann weg ist, sobald der neue Server läuft!“

Er so: „Sie können ja den bereitgestellten Backup-Speicherplatz benutzen, der bleibt ja bestehen.“

Ich so: „Ich muss also ein paar Dutzend Gigabyte per FTP auf einen anderen Server kopieren, was Stunden dauern wird, dann muss ich Ihnen Bescheid geben, dass Sie einen neuen Server bereitstellen, was Stunden dauern wird, dann darf ich das Betriebssystem von Hand wieder zurechtfrickeln, was Stunden dauern wird, weil das System, das damals installiert wurde, heute gar nicht mehr zur Installation angeboten wird, und dann darf ich die gleichen paar Dutzend Gigabyte wiederum per FTP zurückkopieren, was nochmals Stunden dauern wird?“

Er so: „Ja, das ist das normale Vorgehen in diesem Fall. Dieses Vorgehen ist das Ergebnis unserer internen Prozessoptimierung und Qualitätssicherung.“ [sic!]

Ich so (erregt): „Haben Sie eine Vorstellung davon, wieviele Stunden an Downtime das bedeuten wird, um ein Problem zu beheben, das jeder Ihrer Konkurrenten innerhalb einer Downtime von höchstens zehn Minuten lösen könnte? Wie kann das denn bitte ein Ergebnis von Prozessoptimierung sein?“

Er so: „Beim Austausch von einzelnen defekten Festplatten gibt es einfach zuviele Probleme.“

Ich so: „Im Moment machen eher Sie mir Probleme und nicht die defekte Festplatte. Können Sie mir denn dann bitte sagen, wofür Sie überhaupt ein RAID1 in diesen Server bauen, wenn Sie dann bei dem Problem, für das ein RAID1 einen Workaround bietet, nämlich den Ausfall einer Festplatte zu kompensieren, dann gleich dem ganzen Gerät den Gnadenschuss verpassen? Dann hätten wir uns das RAID1 ja auch gleich sparen können.“

Er so: „Nein, denn dann wäre der Server sofort ausgefallen und Sie hätten unter sofortigem Handlungsdruck gestanden. So können Sie sich den Zeitpunkt frei aussuchen, wann Sie die Neueinrichtung machen wollen, also eben dann, wenn es Ihnen gelegen kommt.“

Ich so: „Das RAID1 ist nur dazu da, dass ich mir den Zeitpunkt der stundenlangen Downtime selbst aussuchen kann, wann immer es mir, ich zitiere: „gelegen“ kommt? Ist das ihr Ernst?“

Er so: „Ja, genau.“

Ich so: „Ihnen ist aber doch klar, dass das Internet 24 Stunden täglich geöffnet hat und eine mehrstündige Downtime immer ungelegen kommt? Auf dem Server läuft ein Onlinespiel, das rund um die Uhr aktiv genutzt wird!“

Er so: „Also, die meisten unserer Kunden finden es gut, einen ganz neuen Server zu bekommen.“

Ich so: „Ja und? Offensichtlich haben die meisten Kunden keine wirklich wichtigen Sachen auf den Servern bei Ihnen. Dass ein einzelner Server keine hochverfügbare Lösung ist, ist natürlich klar, aber wir haben uns absichtlich einen Server mit RAID1 ausgesucht, um der wahrscheinlichsten Ausfallursache eines Servers, nämlich einer defekten Festplatte, entgegentreten zu können. Und nun machen Sie dies völlig zunichte, in dem Sie ohne Not eine stundenlange Downtime provozieren, die für uns mit jeder Menge Arbeit verbunden ist, nicht zuletzt für den darauf folgenden zu erwartenden Support. Gibt es da wirklich keine andere Möglichkeit?“

Er so: „Nein, die gibt es nicht.“

Es hat unsererseits gar keiner Empfehlung für diesen Schritt bedurft – unser Kunde kündigt den bei S betriebenen Server  von sich aus. Und für uns bleibt es unterm Strich ein lehrreiches Beispiel dafür, wie wir uns von Providern abgrenzen, für die „Prozessoptimierung“ wichtiger ist, als die für den Kunden optimale Lösung zu finden – und dafür dann eben auch mal einen Finger mehr krummzumachen. In diesem Sinne sind wir stolz darauf, in den Augen von S „höchstens ein kleines Systemhaus“ zu sein.

Einfach mal umgebaut

Montag, 07. September 2009

Es ist sicherlich nicht die feine Art, über Mitbewerber zu lästern, und es soll auch eine Ausnahme bleiben. Aber was einem unserer Kunden vor wenigen Tagen bei einem anderen Hoster – nennen wir ihn „N“ – passiert ist, ließ mir wirklich die Kinnlade herunterfallen.

Wir haben kein Problem damit, wenn Kunden von uns Server bei anderen Anbietern betreiben und dann nur den Support von uns beziehen. Sicherlich ist das nicht optimal, wenn wir bei echten Problemen keine Möglichkeit haben, z.B. Hardware zu reparieren und auch sonst auf die Debugging-Möglichkeiten des anderen Anbieters angewiesen sind, wenn der Kunde Hilfe braucht, aber wir kommunzieren im Vorhinein klar, was geht und was nicht, so dass es hier eigentlich nie zu Irritationen kommt.

Der Server, den unser Kunde neben einigen anderen bei N hat, machte Probleme. Die genaue Vorgeschichte kennen wir nicht; aus telefonischen Schilderungen konnten wir Unspezifisches entnehmen wie „das Gerät reagiert nur langsam“ (obwohl der Load bei 0 liegt), „Pings gehen mal durch und mal nicht“ … kurz, Symptome, die vieles bedeuten können.

Den Logfiles konnten wir entnehmen, dass der fragliche Server in den letzten Tagen etwa 40 Mal rebootet worden ist – au weia. Wenn ein Reboot ein Problem nicht löst, tut’s ein zweiter in der Regel auch nicht. Aber sei’s drum.

Wir wurden zu Hilfe gerufen, als die Situation die war, dass N dem Kunden mitteilte, den Server rebootet zu haben, der Kunde den Server aber dennoch nicht erreichen konnte. N hat für diese Fälle ein einfaches Schema: Der Server wird in den Rescue-Modus versetzt und dem Kunden das Rescue-Passwort mitgeteilt, damit er sich die Sache selber ansehen kann.

Ich will anmerken, dass ich diese Vorgehensweise – gelinde gesagt – bereits eine Unverschämtheit finde. Der Server ist nämlich ein Mietgerät, das mit von N vorinstallierter Software ausgeliefert wird und ein Webinterface mit sich bringt. Der Kunde hat zu keinem Zeitpunkt am Kernel, an den Netzwerkeinstellungen oder an sonst irgendetwas herumgebastelt, sondern einfach nur Websites über das bereitgestellte Webinterface eingerichtet. Wenn so grundlegende Funktionalität wie die schlichte Erreichbarkeit übers Netzwerk fehlt, ist das aus meiner Sicht daher immer Sache des Anbieters, dies vertragsgemäß bereitzustellen. (Anders sieht der Fall natürlich aus, wenn der Kunde selber ein Betriebssystem installiert oder am bereitgestellten System herumbastelt, zum Beispiel einen anderen Kernel installiert, der nicht funktioniert. Anbieter, die eine solche Freiheit ermöglichen, bieten dann aber typischerweise dafür auch eine Rescue-Konsole. Bei N heißt „Rescue-Modus“, dass man anrufen muss und ein Techniker eine CD einlegt. Von daher muss man auch nochmal anrufen, wenn die CD wieder entfernt werden muss, damit das Gerät normal booten kann. An Rescue außerhalb der Geschäftszeiten ist von daher nicht zu denken.)

Wir hatten nun also Zugang zum Rescue-System des Servers, der nicht mehr per Netzwerk erreichbar war. Die letzte Auskunft des Supports von N lautete: Wir hatten Tastatur und Monitor angeschlossen und konnten verifizieren, dass der Server hochgefahren ist und nun am Login-Prompt steht. Als der Kunde daraufhin anmerkte, dass der Server aber nicht mal per Ping erreichbar wäre, folgte kurzerhand der Rescue-Modus, „damit Sie das wieder in Ordnung bringen können“.

Mein Kollege Matthias brachte mich auf den entscheidenden Punkt: Ich solle mir doch mal die Ausgabe von lspci anschauen; da würde was von einer Intel-Netzwerkkarte stehen. Er meine, sich erinnern zu können, dass da eine RealTek-Karte drin gewesen sei.

Einige Checks in den dmesg-Logfiles später war klar:

Erstens, N hat die Netzwerkkarte ausgetauscht.

Zweitens, N hat dem Kunden aber nicht gesagt, dass sie die Netzwerkkarte ausgetauscht haben.

Drittens, in dem – von N! – installierten Kernel ist überhaupt kein Treiber für die neue Netzwerkkarte vorhanden. Das Gerät kann also überhaupt nicht übers Netzwerk erreichbar sein.

N hat folglich überhaupt nicht geprüft, ob die neue Netzwerkkarte funktioniert. Sie haben es nicht mal geprüft als der Kunde sich explizit darüber beschwerte, dass der Server nicht per Netzwerk erreichbar ist. Stattdessen hat man einfach den Rescue-Modus aktiviert und dem Kunden die Fehlersuche überlassen – wie gesagt, ohne ihm mitzuteilen, dass da jetzt eine ganz andere Netzwerkkarte drinsteckt.

Letztlich konnten wir an dem Problem nicht viel machen, denn der installierte Kernel ist, vorsichtig gesagt, antik. Kurz, für aktuelle Intel-Netzwerkkarten ist da mit einem Treiber nicht viel zu wollen. Unser Support für den Kunden beschränkte sich also eher darauf, ihn darin zu unterstützen, dass N das Problem korrekt löst – und sich vielleicht dann doch auch bitte mal zum Thema „stillschweigend getauschte Netzwerkkarte“ äußern möge.

Das hat N dann schließlich auch getan: Die einzige Möglichkeit sei, einen neuen Kernel zu kompilieren oder die Daten zu sichern und den Server neu aufzusetzen. Offensichtlich war es N aber zu mühselig, einen neuen Kernel zu kompilieren, denn die finale Aufforderung lautete schließlich:

Daher bitten wir Sie, die wichtigen Daten zu sichern, sodass wir den Server neu aufsetzen können. Dies können Sie im Rescuemodus mit dem Programm „WinSCP“ machen, welches so ähnlich funktioniert wie ein ftp-Programm.

Verständlicherweise ist dem Kunden da dann ziemlich der Kragen geplatzt. Immerhin ist bei einem Mietserver die korrekte Funktion der Hardware strikt die Sache des Anbieters, und genauso auch das korrekte Zusammenspiel mit dem ausgelieferten System – sprich, wird die Hardware durch den Anbieter (zumal ohne Rücksprache) verändert, sehe ich es auch als Sache des Anbieters, das installierte Betriebssystem entsprechend anzupassen.

Unnötig zu sagen, dass „die wichtigsten Daten sichern“ nicht einfach ein scp-Befehl gewesen wäre. Immerhin geht es um unterschiedliche Systemuser, deren Daten, Konfigurationsdateien, und schließlich auch noch die Daten der Konfiguration der Web-Administration, von der niemand genau weiß, wo sie liegen und wie man sie so sichern kann, dass man sie woanders wieder einspielen kann. Aber offensichtlich meint N, das manuelle Anlegen von, sagen wir mal, 100 Websites und 1000 E-Mail-Adressen und anschließendes Wiedereinspielen von Backups sei keine Arbeit, das kannman ja mal in der Kaffeepause erledigen.

Nachdem wir den Kunden mit entsprechender Argumentation ausgestattet hatten, war es eine Sache von einer Stunde, bis der Anbieter eine Netzwerkkarte eingebaut hatte, die vom bestehenden Kernel unterstützt wird. Das Gerät läuft seitdem wieder ohne Schwierigkeiten.


Impressum