Studien zur Sicherheit von Websites nehmen im Forschungsgebiet der Informationssicherheit einen breiten Raum ein. Dabei ist der Standard in der Forschung bis heute oft die Live-Analyse. Das bedeutet, dass bestimmte Parameter zur Sicherheit von Websites in dem Moment gemessen werden, in dem die Forschenden auf eine Website zugreifen. Problematisch ist, dass dies immer nur eine Momentaufnahme darstellt: Was in einem Moment „live“ ist, kann einen Tag später schon veraltet sein.
„Das Web ist so random, dass es extrem komplex ist, Experimente zu reproduzieren“, so CISPA-Forscher Florian Hantke. Deswegen ist es bei Live-Analysen fast unmöglich, Experimente unter gleichen Bedingungen zu wiederholen. Für Hantke stellt dies ein grundsätzliches Problem dar: „Experimente sollten immer reproduzierbar sein, weil ein Experiment sonst an Relevanz verliert. Sonst könnte jeder einfach behaupten, das Internet wäre sicher“. Eine Alternative, mit der das Kriterium der Reproduzierbarkeit gewährleistet werden kann, könnte laut Hantke theoretisch die Nutzung von Web-Archiven darstellen.
Web-Archive speichern in regelmäßigen Abständen Kopien existierender Websites, sogenannte „snapshots“, auf externen Servern. Dort können sie versehen mit Datum und Timecode abgerufen werden. Anders als an Live-Websites gibt es an den gespeicherten Kopien keine Veränderungen mehr. Das bekannteste Web-Archiv ist das Internet Archive. In der Forschung werden Live-Analysen bisher vor allem für historische Analysen, aber nicht für Live-Analysen verwendet. Hantke erklärt dies damit, dass „viele Leute denken, in den Archiven wäre nicht alle wichtigen Daten vorhanden“.
Internet Archive anderen Web-Archiven überlegen
CISPA-Forscher Hantke und seine Kolleg:innen wollten nun wissen, wie gut sich Web-Archive für Live-Analysen zur Überprüfung von Sicherheitsmechanismen von Websites eignen. Dafür mussten sie herausfinden, welches der existierenden Web-Archive die genauesten Kopien speichert. Konkret untersuchten sie dafür eine Reihe öffentlicher Web-Archive hinsichtlich des Umfangs und der Qualität der hinterlegten Daten der 5.000 wichtigsten Websites für den Zeitraum von Januar 2016 bis Juli 2022.
Im Vergleich der verschiedenen Web-Archive zeigte das Internet Archive (IA) die besten Resultate. Die Qualität des Archivs ist so gut, dass die Autor:innen um Hantke unter bestimmten Voraussetzungen sogar eine Arbeit mit dem IA als alleiniger Quelle empfehlen. Die Datenqualität des IA überprüften sie anhand einer Fallstudie zu zwei Mechanismen, die zum Standard vieler Websites gehören: den sogenannten Security Headern sowie Java-Script-Inklusions. Darüber hinaus zeigten sie auf, dass das IA so regelmäßig Kopien von Websites speichert, dass auch detailliertere Analysen möglich sind, deren Qualität Live-Analysen in nichts nachsteht.
Zusätzlich ermöglicht das IA die Analyse von mehreren Snapshots einer Website im gleichen Zeitraum, was Hantke als „Neighborhood“ bezeichnet. Dies ermöglicht etwaige kurzzeitige Ausreißer in den Daten, wie zum Beispiel Serverprobleme einer Website, zu glätten. Durch das von den Forschenden genutzte Verfahren, öffentlich zugängliche Web-Archive zu nutzen, werden Studien einfacher reproduzierbar. Langfristig kann dadurch die Qualität der Forschung gesteigert und können Sicherheitsmechnismen von Websites besser überprüft werden.
Herausforderungen bei der Nutzung von Web-Archiven
Gleichwohl gibt es auch bei der Nutzung von Web-Archiven für die Live-Analyse einiges zu bedenken. „Ein großer Nachteil ist die langsame Geschwindigkeit“, erklärt Hantke. So ist die Bearbeitung großer Datenmengen bei einer klassischen Live-Analyse wesentlich schneller, da der Zugriff auf in den Web-Archiven gespeicherte Daten sehr langsam ist. Umgehen ließe sich dies jedoch durch Kooperationen mit den Archiven, wie etwa dem von Hantke und Kolleg:innen favorisierten IA, um einen besseren Zugriff auf die Daten zu bekommen. „Zu beachten sind auch die unterschiedlichen Vantage Points“, so Hantke weiter. Das sind die Zugriffsstellen, von wo auf der Welt auf die Websites zugegriffen wird. Diese entscheiden auch darüber, wie genau eine Website aussieht, die im Archiv gespeichert wird.
„Bei Sicherheitsthemen sind die Unterschiede eher vernachlässigbar, aber bei Analysen etwa zur Implementierung der DSGVO wird der Zugriffsort schon wichtig“, erklärt der CISPA-Forscher. Denn spezifische Features, die für die Datenschutzgrundverordnung (DSGVO) relevant sind, werden oft nur auf europäischen Websites angezeigt. Eine in den USA gespeicherte Kopie würde hier also nicht helfen. Deswegen muss für jede neue Forschungsfrage überprüft werden, ob die Arbeit mit Web-Archiven in Frage kommt.
Produktive Forschungstätigkeit als PhD
Florian Hantke arbeitet jetzt seit gut einem Jahr als PhD beim CISPA. Da er mit seiner Frau in Erlangen lebt, arbeitet er viel im Homeoffice. Danach gefragt, ob ihm dabei zu Hause nicht spezielles Equipment für die Forschung fehlt, erzählt er, dass eine sichere VPN-Verbindung zum CISPA-Server in Saarbrücken völlig ausreiche. „Ich schicke dann einfach eine Anweisung an den Server und lasse die Analysen dort laufen“, so Hantke.
Die Resultate kann er dann später bequem abrufen. Das Paper zu den Web-Archiven ist bereits seine zweite Veröffentlichung. „Ich bin ganz zufrieden mit meinem Output“, gesteht er lachend. Und für den Sommer ist bereits ein weiteres Paper in Planung. Aber vorher hofft er, dass es noch mehr Interesse an seinen Erkenntnissen zur Nutzung von Web-Archiven für Sicherheitsanalysen gibt. Das Management von Internet Archive hat auf jeden Fall schon Interesse signalisiert. Und in Zusammenarbeit mit den an der Studie beteiligten Co-Autoren und Autorinnen von der Universität Ca‘ Foscari in Venedig ist auch ein öffentlich zugängliches Projekt für Web-Sicherheitsanalysen in Planung, das auch andere Forscher:innen nutzen können.