Jeder hat die Situation schon erlebt: Der PC ist abgestürzt, lässt sich nicht mehr zuverlässig booten, E-Mails können nicht empfangen, gelesen oder versendet werden, die gerade bearbeiteten Dokumente sind nicht aktuell gespeichert oder nicht mehr zugreifbar. So schlimm diese Szenarien auch sind, richtig katastrophal wird es in der Regel erst, wenn ein im industriellen Umfeld arbeitendes Rechnersystem ausfällt. Besonders bei sicherheitskritischen Anlagen oder im Produktionsumfeld sind die Auswirkungen und die Kosten für einen Maschinenstillstand, als Folge einer Fehlfunktion oder eines Ausfalls eines Industrie-PCs, sehr schnell nicht mehr überschaubar.
Professionelle Rechner erfüllen im Vergleich zu Büro-PCs höhere Anforderungen in puncto Robustheit und Langzeitbetrieb. Sie arbeiten jedoch in der Regel in einem rauen, vom Industriealltag geprägten Umfeld. Auch die beste Hardware wird versagen, wenn beispielsweise die Umgebungstemperatur den zulässigen, spezifizierten Bereich verlässt. Ein Lüfter kann unter Industriebedingungen so stark verschmutzt sein, dass er nicht mehr ausreichend kühlt. Oder eine Festplatte hält den Vibrationen in der Maschinenhalle auf Dauer nicht mehr stand. Überraschende Ausfälle sind daher vorprogrammiert, denn eine hundertprozentige Ausfallsicherheit lässt sich niemals gewährleisten.
Ein permanentes Überwachen der Rechnersysteme findet meist nur bei hochsicherheitsrelevanten High-Tech-Anwendungen statt. Im Server-Umfeld stehen seit Jahrzehnten kostspielige Lösungen für Server-Farmen zur Verfügung. Für Embedded-PCs und Industrierechner, die in der Automatisierung, im Transport- und Logistikbereich, der Medizintechnik oder der Gebäudeautomatisierung eingesetzt werden, setzt sich erst allmählich eine kontinuierliche Zustandsüberwachung durch. Aus der verbesserten Sicherheit ergeben sich niedrigere Betriebskosten aufgrund von vermiedenem Systemstillstand und einer zustandsorientierten Wartung.
Zu überwachende Betriebsparameter
Dank einer ständigen Überprüfung der vitalen Betriebsparameter lassen sich mögliche Störungen in Hardware und Software der Rechnersysteme frühzeitig erkennen und geeignete Maßnahmen ergreifen. Überwacht werden können beispielsweise die Temperatur des Prozessors, Chipsatzes, Gehäuses und der Festplatte, die Lüfterdrehzahl von Prozessor, Grafikkarte und Gehäuse, die Festplatte mit Hilfe von Smart-Technologie (Lebenserwartung, defekte Sektoren, Spin-Up-Time), die Versorgungsspannungen, die redundanten Netzteile und die Anzeige der Prozessdaten, wie CPU-Last oder zugewiesener Speicher.
Darüber hinaus können die Überwachungsaufgaben auf Wunsch auch auf kundeneigene Systeme erweitert werden, zum Beispiel auf zusätzliche Einsteckkarten oder Sensoren. Diese lassen sich über die Webservice-Schnittstelle (dem Netzwerkprotokoll Soap) an das Monitoring Tool anbinden. Auch das Anpassen der Parameter an spezielle Einsatzgebiete ist ohne Kenntnisse des Monitoring Tools möglich.
Neben den automatisch zur Verfügung stehenden Alarmschwellen lassen sich für jede automatisch generierte Systemgröße beliebig viele Warn- und Alarmgrenzwerte mit unterschiedlichen Meldetexten definieren. Im Fehlerfall kann sofort über ein akustisches oder optisches Warnsignal der Servicetechniker benachrichtigt werden. Darüber hinaus ist es möglich, per E-Mail, über ein Pop-Up-Fenster oder SNMP (Simple Network Management Protocol) eine Alarmmeldung an das Wartungspersonal zu versenden. Die Spezialisten sind dann in der Lage, unverzüglich die geeigneten Maßnahmen zur Sicherung des reibungslosen Betriebs zu ergreifen. Eine weitere Alternative ist das Ausführen von Drittprogrammen. Die Historiendarstellung aller Daten ist in tabellarischer oder grafischer Form möglich. Einen schnellen Überblick über den aktuellen Systemzustand bietet außerdem eine Ampeldarstellung.
Per Web Browser (SSL/TLS gesichert) erlauben die Monitoring Tools einen Fernzugriff und die entsprechende Diagnose. Zur Abfrage des Zustands der einzelnen Hardwarekomponenten eignet sich das SNMP-Protokoll. Dieses dient zum Verwalten und Steuern von Netzwerkgeräten wie Systeme, Router, Switches und USVs (unterbrechungsfreie Stromversorgung) und hat sich heute als Standard durchgesetzt.
Alle erfassten Messgrößen (Min, Max, Mittelwert) lassen sich in einer Datenbank archivieren, sodass jederzeit auch der historische Verlauf der Messwerte über die gesamte Lebensdauer des Systems zur Verfügung steht. Damit ist auch eine Aussage möglich, ob eine Warnung eines kritischen Systemzustands nur ein einmaliger Ausreißer oder tatsächlich der Hinweis für einen bevorstehenden Ausfall der Komponente ist. Es sind unterschiedliche Speicherintervalle inner- und außerhalb des normalen Betriebsbereichs möglich.
Als Option ist auch die permanente Überwachung mehrerer industrieller PCs in einer Cloud möglich. Die Monitoring-Software ist standardmäßig unter allen Windows-Betriebssystemen lauffähig. Der Einsatz von Linux ist ebenfalls realisierbar.
Zustandsorientierte Wartung
Nach einem plötzlichen Defekt eines Rechners wird meistens fieberhaft nach der Fehlerursache gesucht. Sobald klar ist, welche Komponente den Ausfall verursacht hat, muss auf dem schnellsten Weg ein Ersatzteil beschafft und dann unter Zeitdruck ausgetauscht werden. Sinnvoll ist es jedoch, einen Fehler zu erkennen, bevor er auftritt. Beispielsweise beruhen 60 Prozent der Ausfälle von Festplatten auf mechanischen Ursachen, die sich in aller Regel durch eine langsame Verschlechterung der vitalen Parameter ankündigen. Eine Überwachung dieser Parameter erlaubt es, das Auftreten von Fehlern quasi „vorherzusehen“. Ersatzteile können gezielt beschafft, der Austausch während eines geplanten Stillstands ausgeführt werden. Ein solches Vorgehen spart Zeit, Geld und Nerven beim Hersteller von industriellen PCs, wie auch bei seinen Kunden.
Ein weiteres Beispiel verdeutlicht die Vorteile der Überwachung eines Rechnersystems: Der Lüfter eines PCs dreht sich nur noch mit 100 statt mit den geforderten 1000 Umdrehungen pro Zeiteinheit. Per SNMP wird eine Warnmeldung versendet und angezeigt, dass der Lüfter zwar noch arbeitet, jedoch viel zu langsam. Damit besteht die Gefahr, dass die Betriebstemperatur im Rechnergehäuse ansteigt. Bevor der Lüfter komplett ausfällt, kann bereits im Vorfeld – zu einem passenden Zeitpunkt – der defekte Lüfter ausgetauscht werden.
Diagnose aus der Ferne
Zur permanenten Zustandsüberwachung können die kompakten Embedded-Systeme der Nanoserver-Familie und die leistungsfähigen Mainboard-Versionen der 19-Zoll-Infinity-Systeme von MSC Technologies, die auf den aktuellen Intel-Core-Prozessoren der sechsten Generation (früherer Codename Skylake) basieren, mit dem Remote Diagnostic Tool
ReDi 1 ausgestattet werden. Mit ReDi 1 lassen sich mögliche Störungen aller eingesetzten PCs frühzeitig – oftmals noch vor dem Ausfall einzelner Komponenten – erkennen, um sofort geeignete Maßnahmen ergreifen zu können. Die Folge sind erhöhte Zuverlässigkeit und Betriebssicherheit der Rechnersysteme.
Dank der zustandsorientierten Wartung (Predictive Maintenance), die anhand der kontinuierlichen Systemüberwachung möglich ist, lässt sich eine wesentlich höhere Systemverfügbarkeit erreichen. Die Durchführung notwendiger Servicearbeiten während planmäßiger Standzeiten führt zu einer Minimierung der Maschinenstandzeit und damit zu erheblichen Kosteneinsparungen im laufenden industriellen Betrieb.