Effizientes Krisenmanagement So hat Magics-Managed-Services-Team auf den CrowdStrike-Vorfall reagiert

Magic Software Enterprises (Deutschland) GmbH

Bei einem großen US-amerikanischen Hersteller von Bauprodukten kam es aufgrund eines weit verbreiteten CrowdStrike-Problems im Juli zu einem kritischen Systemausfall, das sich weltweit auf virtuelle Maschinen (VMs) auswirkte.

Bild: publish-industry, DALL·E
28.08.2024

Bei einem großen US-amerikanischen Hersteller von Bauprodukten kam es aufgrund eines weit verbreiteten CrowdStrike-Problems im Juli zu einem kritischen Systemausfall, das sich weltweit auf virtuelle Maschinen (VMs) auswirkte. Dank der Managed Services von Magic Software konnte der Notfall von dem Team in Indien schnell gemanagt und gelöst werden, während es in den USA noch Nacht war.

Sponsored Content

Um circa 10:27 Uhr IST erkannte das proaktive Überwachungssystem von Magic Software eine Störungsmeldung einer VM des Herstellers. Die Fehlfunktion der betroffenen VM führte dazu, dass die von ihr gehostete Anwendung nicht mehr verfügbar war, wodurch kritische Abläufe in der Produktion, die rund um die Uhr läuft, zum Stillstand kamen.

Rasches Handeln

  • Erkennung der Warnmeldung: Das Überwachungssystem meldete die Nichtverfügbarkeit der VM, woraufhin das Magic-Software-Team in Indien sofortige Maßnahmen ergriffen hat.

  • Schnelle Koordinierung: Innerhalb weniger Minuten kontaktierte das indische Support-Team die DevOps- und Infrastruktur-Teams, um die Ursache zu ermitteln. Es wurde schnell festgestellt, dass der Ausfall auf ein Problem mit den Cloud-Servern von CrowdStrike zurückzuführen war, wodurch die VMs nicht verfügbar waren.

  • Technische Herausforderungen: Das Team sah sich mit der Schwierigkeit konfrontiert, dass die VMs nicht normal im abgesicherten Modus booten konnten, was die Bereinigung problematischer CrowdStrike-Patches erschwerte.

So wurde der Systemausfall bewältigt

  • Hauptplan: Das Team schlug einen schnellen Lösungsweg ein, indem es die betroffenen Festplatten deaktivierte, die Patches bereinigte und dann die Festplatten wieder an die VMs anschloss. Mit dieser Methode wurden die von den CrowdStrike-Agent-Files verursachten Probleme erfolgreich umgangen.

  • Backup-Pläne: Gleichzeitig wurde eine saubere Kopie der betroffenen VM aus dem Backup-System wiederhergestellt, um eine Ausweichmöglichkeit zu schaffen. Obwohl dieser Plan nicht benötigt wurde, war das Team gut auf Eventualitäten vorbereitet.

  • Kontinuierliche und transparente Kommunikation: Während des gesamten Prozesses kommunizierte der Customer Success Manager regelmäßig mit den Verantwortlichen des Herstellers und lieferte regelmäßige Updates, um sie über die Fortschritte und Maßnahmen zu informieren.

Ergebnis: Betriebssicherheit wiederhergestellt

Innerhalb von circa sechs Stunden stellte das Team von Magic Software die betroffenen Systeme wieder her, so dass die Ausfallzeit minimal war und der Kunde seine Produktion wieder aufnehmen konnte. Die Abläufe in der Fabrik liefen wieder normal, wobei die Stabilität kontinuierlich überwacht wurde.

Positive Rückmeldung des Kunden: Schaden hält sich in Grenzen

  • Betriebliche Kontinuität: Die schnelle Reaktion und Lösung des Problems stellte sicher, dass die Produktion des Herstellers, die auf einen kontinuierlichen Datenfluss angewiesen ist, nur minimal unterbrochen wurde.

  • Kosteneinsparungen: Durch die Verhinderung längerer Ausfallzeiten konnte der Hersteller erhebliche potenzielle Verluste bei den Produktions- und Betriebskosten vermeiden.

  • Kundenvertrauen: Die von Magic Software demonstrierte Transparenz und Effizienz stärkte das Vertrauen des Herstellers in die bereitgestellten Managed Services.

Wie Magic Software bei kritischen Notfällen unterstützt

Dieser Vorfall unterstreicht den entscheidenden Wert der Managed Services von Magic Software. Die Kombination aus proaktiver Überwachung, technischer Expertise und effektiver Kommunikation sorgte dafür, dass ein potenziell katastrophales Ereignis mit minimalen Auswirkungen bewältigt werden konnte. Dieser Anwendungsfall ist ein Beispiel für das robuste Supportsystem und die schnellen Problemlösungsmöglichkeiten, die Magic Software seinen Kunden bietet.

Verwandte Artikel