Der US-Konzern Amazon ist nicht nur einer der größten Online-Händler, sondern mit Amazon Web Services (AWS) zugleich einer der größten Anbieter von IT-Infrastruktur und Online-Services. Zahlreiche Start-Ups, aber auch Portale wie Buzzfeed oder Snapchat greifen aus Kostengründen auf Dienstleistungen wie den skalierbaren Cloud-Speicher Simple Storage Service (S3) zurück.
Sogar Störungs-Websites waren gestört
Am vergangenen Dienstag, den 28. Februar 2017, sorgte eine regionale Störung im Rechenzentrum Northern Virginia (US-East-1) dafür, dass der S3-Dienst stundenlang ausfiel. In der Folge waren dutzende Webseiten nicht mehr erreichbar. Dazu gehörten die Reise-Webseite Expedia, die Foto-App Snapchat und Medienseiten wie Buzzfeed oder Medium. Selbst der Störungsmonitor Isitdownrightnow.com fiel zeitweilig aus. Auch einige Dienste von Amazon, darunter Fire-TV und Prime-Video, waren von dem Ausfall betroffen und konnten nicht mehr genutzt werden.
Die Beeinträchtigung ging so weit, dass Amazon das eigene Dashboard, das eigentlich dazu dient, über Störungen in der Infrastruktur zu informieren, nicht mehr aktualisieren konnte. Der Konzern musste deshalb auf Twitter ausweichen, um seine Nutzer auf dem Laufenden zu halten.
Die Störung begann gegen 19 Uhr deutscher Zeit, konnte aber innerhalb weniger Stunden behoben werden. Insgesamt dauerten die Beeinträchtigungen rund vier Stunden.
Tippfehler löst Kettenreaktion aus
Zunächst sprach das Unternehmen nur von erhöhten Fehlerraten, die aufgetreten und wieder behoben worden seien. Inzwischen hat sich Amazon allerdings zu dem Vorfall geäußert und den Grund für den Ausfall erläutert.
Laut der Mitteilung wollte ein Techniker aus dem S3-Team lediglich einen Teil der Server im Virginia-Rechenzentrum abschalten. Er hatte offenbar versucht, ein Problem mit einem Abrechnungssystem zu beheben, das zu langsam gearbeitet hatte. Allerdings gab der Techniker den Abschaltbefehl falsch ein und sorgte dadurch für die Abschaltung von weit mehr Servern als ursprünglich geplant.
Unter diesen befanden sich unglücklicherweise auch einige Untersysteme, die Metadaten und Speicherorte aller S3-Objekte in der Region verwalteten. Die Abschaltung löste also eine Kettenreaktion aus und erschwerte es den Verantwortlichen, den Fehler schnell rückgängig zu machen. Die Subsysteme mussten komplett neu gestartet werden, weshalb S3 in dieser Zeit keine weiteren Anfragen bearbeiten konnte. Da der Cloud-Service außerdem in den vergangenen Jahren einen großen Wachstum zu verbuchen hatte und sich die notwendigen Sicherheitschecks dementsprechend aufwendiger gestalteten, dauerten die Arbeiten deutlich länger als erwartet.
Amazon kündigt Gegenmaßnahmen an
In der Meldung kündigt das Unternehmen Maßnahmen an, um in Zukunft weniger anfällig für derartige Störungen zu sein. Eine erste Änderung soll beispielsweise die Geschwindigkeit verringern, in der die Server heruntergefahren werden. Schutzvorrichtungen sollen zudem einen zu großen Verlust an Serverkapazität verhindern. Damit will Amazon sicherstellen, dass wichtige Untersysteme immer ausreichend versorgt sind und zu jeder Zeit ihre Aufgabe erfüllen können. Als weiteres Ziel gab das Unternehmen vor, die Zeit für die Wiederherstellung der Systeme zu verbessern. Außerdem sollen die Services künftig in kleinere Partitionen unterteilt werden, um die Effekte eines möglichen Ausfalls geringer zu halten.
Die Online-Dienste von Amazon sorgten in der Vergangenheit schon mehrfach für Schlagzeilen. Neben Datenschutzbedenken werfen Kritiker dem US-Konzern immer wieder vor, sich zu wenig um die Sicherheit und Stabilität seiner Rechnerzentren zu kümmern. Ausfälle beeinträchtigen immer wieder Teile des Internets und legen Webseiten lahm. Zuletzt sorgte im Jahr 2015 ein größerer Ausfall dafür, dass der Streaming-Anbieter Netflix ausgebremst worden war.