Eine 2016 durchgeführte Studie der Information Technology Intelligency Consulting fand, dass 98 Prozent aller befragten Unternehmen mit mindestens 100.000 US Dollar Verlust pro Stunde ungeplanten Stillstands rechnen. Umsatzverluste, Wiederherstellungszeit und laufende Kosten addieren sich schnell zu belastenden Größenordnungen.
Mit der Vernetzung der Produktion wächst zwar die Chance, über die Auswertung der Fertigungsdaten Prozesse zu optimieren. Zugleich bedeutet diese Vernetzung aber auch eine zunehmende Komplexität der Industrial Control Systems (ICS). Moderne Fertigungszellen bestehen nicht selten aus mehreren hundert bis tausend Einzelkomponenten – viele davon gehören zur Operational Technology (OT), über die die Anlagen überwacht und gesteuert werden.
Die OT ist geprägt von einer hohen Hersteller-Heterogenität. Die Geräte nutzen eigene Protokolle und weisen herstellerspezifische Konfigurationen und Kommunikationsmuster auf, die selten auf die spezifische Infrastruktur abgestimmt sind. Hinzu kommt die hohe Belastung der Geräte in Produktionsumgebungen. Extreme Temperaturen, Staub, Erschütterungen oder chemische Substanzen setzen den Geräten kontinuierlich zu.
Die meisten Monitoringlösungen beschränken sich auf einzelne dieser Probleme. IoT-Sensoren an den Anlagen fokussieren vorrangig auf konkrete Prozessdaten. Gängige Netzwerkmonitoringlösungen für die OT beschränken sich wiederum auf Cybersicherheit. Technische Fehlerzustände werden fast immer erst wahrgenommen, wenn die Störung bereits eingetreten ist. Sinnvoll ist deshalb eine Kombination aus Überwachung der Cybersicherheit und technischer Fehlerzustände, um den sicheren und stabilen Betrieb der OT zu gewährleisten.
Fehlende Dokumentation, null Sichtbarkeit
Die erschwerten Rahmenbedingungen in der Produktion bewirken in Summe, dass die Funktionalität der OT-Komponenten regelmäßig gestört wird. Die Störung kann durch sowohl physische Defekte als auch Inkompatibilitäten und Softwarefehler entstehen.
Für Betreiber beginnt dann häufig eine Suche nach der sprichwörtlichen Nadel im Heuhaufen. Denn nicht nur fördert die Komplexität der OT die Unübersichtlichkeit. Auch existiert in Industrieunternehmen selten eine vollständige Dokumentation der eingebetteten Systeme. Dies erschwert enorm die Verwaltung, Diagnose und Fehlerbehebung der Geräte.
Fehlerzustände belasten OT-Performance
Das bestätigen auch die Ergebnisse aus der kontinuierlichen Überwachung von Produktionsnetzen sowie Stabilitäts- und Sicherheitsaudits, die wir regelmäßig in Industrieunternehmen und kritischen Infrastrukturen durchführen. Durch das zum Einsatz kommende industrielle Netzwerkmonitoring mit Anomalieerkennung Rhebo Industrial Protector erhalten die OT-Verantwortlichen in der Regel erstmalig ein komplettes Asset Inventory ihrer Infrastruktur.
Darüber hinaus finden sich bei der initialen Risiko- und Schwachstellenanalyse im Durchschnitt 23 Anomalien. Allein ein Viertel davon fällt in der Regel auf bislang nicht entdeckte technische Fehlerzustände. Diese sind ohne entsprechendem Netzwerkmonitoring unscheinbar. Für Betreiber sind sie schwer zu lokalisieren und zuzuordnen.
Bei einem Betreiber kam es beispielsweise wiederholt zu Überlastzuständen im ICS, die nicht nachvollziehbar waren. Erst durch die detaillierte Kommunikations- und Verhaltensanalyse mittels Netzwerkmonitoring, konnte der Zustand mit einer Fehlfunktion eines Gerätes in Verbindung gebracht werden, das sich als defekt herausstellte. Die Fehlfunktion konnte durch das Netzwerkmonitoring genauestens anhand des untypischen Verhaltensmusters identifiziert werden. Weitere typische technische Anomalien sollen im Folgenden des Beitrags kurz beleuchtet werden.
TCP-Prüfsummenfehler
Die TCP-Prüfsumme bestätigt, dass die gesendete Kommunikation korrekt übertragen wurde und damit die Befehle von den Produktionskomponenten auch korrekt umgesetzt werden können. Eine fehlerhafte TCP-Prüfsumme birgt somit die Gefahr, dass es zu Prozess- beziehungsweise Ausführungsfehlern kommt, die zu Anlagenschäden oder Qualitätsproblemen führen. TCP-Prüfsummenfehler weisen in der Regel auf Übertragungsprobleme aufgrund fehlerhafter Netzwerkkomponenten hin, die meist im ICS versteckt sind.
Erhöhte Paketumlaufzeiten
Stabile Paketumlaufzeiten sind Indikator für eine gleichbleibende Netzwerkqualität und optimale Funktionsweise des ICS. Längere Paketumlaufzeiten weisen dagegen auf Überlastzustände hin. Dadurch kommt es zu Verzögerungen der Telegrammauslieferung. Das wiederum kann insbesondere Echtzeitprozesse gefährden und zu Verzögerungen, Produktionsunterbrechungen und Qualitätseinbußen führen.
TCP-Fenstergröße Null
Besonders gravierend kann sich ein sogenanntes TCP-Window-Size Zero auf die Fertigung auswirken. Dieser Fehler bedeutet, dass das betroffene Gerät nicht mehr wie geplant Daten empfangen und verarbeiten kann. Das kann sowohl Fertigungskomponenten als auch zwischengeschaltete Netzwerkkomponenten (beispielsweise Ports) betreffen. Das betroffene Gerät ist in diesem Fall überlastet oder die jeweilige Anwendung hängt in einer Endlosschleife. Produktionsprozesse sind hochgradig gefährdet. Unterbrechungen und Anlagenstillstände sind die Regel.
Anomalieerkennung verbessert Gesamtanlage
Damit für Industrieunternehmen die Identifikation solch technischer Fehlerzustände nicht zur Nadelsuche im Heuhaufen wird, braucht es zwei Voraussetzungen: Zum einen müssen sie die Kommunikation innerhalb des ICS überwachen (und nicht nur an den Netzwerkgrenzen). Defekte und Performance-Einbrüche werden in der Kommunikation zwischen den Industriegeräten sichtbar, die in der Regel nicht die Netzwerkgrenzen überschreitet.
Zum anderen müssen die Kommunikationspakete auf einer Ebene analysiert werden können, die über die reine IP-Adresse hinausgeht. Im besten Fall werden alle OSI-Schichten bei der Verhaltensanalyse eingebunden. Nicht zuletzt muss das Monitoring auf industrielle Kommunikation und Verfügbarkeitsindikatoren spezialisiert sein.
Ein Netzwerkmonitoring mit Anomalieerkennung wie Rhebo Industrial Inspector kombiniert deshalb industrielle IT-Sicherheit mit Anlagenverfügbarkeit. Die Kommunikation im ICS wird bis auf Wertebene sowohl auf Cyberangriffe und Manipulation als auch auf technische Fehlerzustände untersucht. Das geschieht in Echtzeit und mit allen erforderlichen Reportingdetails, so dass Betreiber Probleme schnell und gezielt auswerten und beheben können.