Warum wir auf VMotion im Notfall verzichten
In der Welt der Informationstechnologie sind wir ständig mit der Herausforderung konfrontiert, komplexe und hochverfügbare Systeme zu verwalten. Moderne Lösungen wie VMware ermöglichen es uns, virtuelle Maschinen (VMs) sogar während des laufenden Betriebs zu verschieben. Dies wird durch den Einsatz synchroner Storage Area Networks (SANs) unterstützt, die eine Verlagerung zwischen unterschiedlichen Serverräumen oder Gebäuden ermöglichen. Angesichts eines Stromausfalls in einem Serverraum erscheint es intuitiv sinnvoll, alle VMs in einen anderen Raum zu verschieben, anstatt sie herunterzufahren. Aber ist das wirklich die beste Vorgehensweise?
"Seit vielen Jahren bin ich in der Feuerwehr aktiv. Die meisten Einsätze sind einfach und nicht wirklich kritisch. Aber über die Jahre haben sich einige Notfälle in mein Gedächtnis eingebrannt. Es gibt Situationen, in denen es wichtig ist, dass Abläufe zu 100% funktionieren. Tun sie dies nicht, können wir unser Ziel nicht erreichen, oder noch viel schlimmer, die mir unterstellten Einsatzkräfte bringen sich in Gefahr. In solchen Momenten, wenn der Druck am höchsten ist und ein Tunnelblick einsetzt, sinkt unsere kognitive Leistungsfähigkeit drastisch. Genau hier kommt das Gesetz der Einfachheit ins Spiel: Nur wenn ein Plan oder ein Auftrag so einfach ist, dass wir ihn unter Stress zuverlässig umsetzen können, ist er auch für den Notfall geeignet. Nur dann werden meine Teammitglieder Ihre Aufgabe verstehen und können Sie umsetzten. Egal wie genial mein Plan ist, wenn ihn keiner versteht, ist er nichts wert und nicht umsetzbar." - Martin Zeifang (Sales Manager bei bn-its)
Einfachheit als Schlüssel zum Erfolg
Diese Erkenntnis lässt sich direkt auf die IT-Notfallplanung übertragen. Stellen wir uns die Frage: Ist es wirklich die beste Idee, im Notfall auf komplexe und potenziell fehleranfällige Prozesse wie die automatische VM-Verlagerung zu setzen?
Die Idee einer automatischen Verlagerung von VMs bei einem Stromausfall klingt verlockend, birgt aber eine Vielzahl von Risiken. Was passiert beispielsweise, wenn während der Migration von einem Raum zum anderen auch im zweiten Raum ein Stromausfall auftritt? Oder wenn die Datenverbindung zwischen den beiden Räumen durch ein unvorhersehbares Ereignis, wie eine Baustelle, die die Verbindung kappt, oder einfach auch der Stromausfall unterbrochen wird?
Zudem ist es entscheidend zu prüfen, ob bei einer Live-Migration der VMs nur eine einfache vMotion durchgeführt wird oder ob eine zusätzliche Storage-Migration notwendig ist. Dies ist besonders relevant, wenn VMs auf Local-Storage liegen oder nicht alle SAN-Volumes auf jedem Host konfiguriert sind.
Risiko eines simultanen Stromausfalls in beiden Räumen:
Sollte während der Migration ein Stromausfall im Zielraum auftreten, könnten die VMs in einem undefinierten Zustand stranden, der dann manuell aufgelöst werden muss. Das Risiko eines Datenverlustes steigt erheblich
Unterbrechungen der Datenverbindung:
Eine stabile Datenverbindung ist für die Migration essenziell. Sollte es zu Unterbrechungen kommen – sei es durch USV-unabgesicherte Netzwerkkomponenten oder externe Faktoren wie Baustellen – könnte die Migration fehlschlagen.
Komplexität durch automatische Verlagerungsprozesse:
Eine automatische VM-Verlagerung muss zahlreiche Aspekte berücksichtigen, wie beispielsweise die Verfügbarkeit und Konfiguration von Portgruppen, vSwitches, Storage-Volumes und die Verfügbarkeit notwendiger Ressourcen auf dem Ziel-Host. Jede dieser Komponenten erhöht die Komplexität und das Potenzial für Fehler. Sind die Konfigurationen nicht identisch, dann schlägt die Migration fehl. Im Normalbetrieb kein Problem. Der Administrator erkennt über die Log-Dateien das Problem, behebt diese und startet den Prozess von neuem. Das Ziel der Automatischen Verschiebung ist aber der Shutdown des ESXi-Hosts. Nur ein komplexes Fehlerhandling kann diesen Konflikt auflösen.
Storage-Migration und ihre Komplexität:
Die Migration einer VM muss nicht nur die Verlagerung der Rechenlast auf einen anderen Host umfassen, sondern kann auch die Migration der zugrundeliegenden Daten beinhalten. Dies kann besonders herausfordernd sein, wenn VMs auf lokalem Speicher oder auf nicht universell zugänglichen SAN-Volumes liegen. Eine Storage-Migration ist in der Regel deutlich zeitaufwendiger. Bei einer Storage-Migration müssen wir daher die Dauer der Migration im Blick behalten. Es ist entscheidend, dass die USV ausreichend lange hält, um den Prozess abzuschließen. Ist dies nicht der Fall, könnten die VMs während der Migration unterbrochen werden, was zu Datenverlust oder Korruption führen wird.
Die zunehmende Komplexität wird offensichtlich. Die technische Implementierung all dieser Herausforderungen ist nicht zu unterschätzen.
In Anbetracht der Herausforderungen und Unsicherheiten, die mit der automatischen VM-Verlagerung verbunden sind, ist das Herunterfahren der Systeme in bestimmten Notfallsituationen die sicherere und kontrollierbare Alternative. Dieser Ansatz folgt dem Prinzip der Einfachheit und stellt sicher, dass die Systeme in einer kontrollierten und vorhersehbaren Weise heruntergefahren werden.
Das gezielte Herunterfahren von Systemen minimiert das Risiko von Datenverlust oder Beschädigung, die während einer komplexen Verlagerung auftreten könnten. Darüber hinaus ermöglicht es eine schnellere Wiederherstellung und Wiederaufnahme der Dienste. Selbst wenn nur ein Serverraum betroffen ist. Denn dann kann direkt nach dem Shutdown der Wiederanlauf gestartet werden. Auch dies ist mit dem VMSM automatisiert in kurzer Zeit umsetzbar.
Während der automatische Transfer von VMs zwischen Serverräumen theoretisch eine nahtlose Geschäftskontinuität ermöglichen könnte, birgt er doch ein beträchtliches Risiko für Fehlfunktionen und Ausfälle. Die Entscheidung für das Herunterfahren der Systeme im Falle eines Stromausfalls ist ein bewusster Schritt, um Komplexität zu reduzieren und die Zuverlässigkeit in kritischen Situationen zu erhöhen. Nicht zuletzt muss die Frage erlaubt sein, wie wahrscheinlich der Ausfall des Stromes in nur einem Serverraum ist. Steht das Risiko im Verhältnis? Was bringen komplexe Notfallszenarien, die dem Praxistest nicht standhalten? Die Einfachheit ist der Schlüssel zum Erfolg.