Die optische Zeichenerkennung (OCR, Optical Character Recognition) wird heute nicht mehr ausschließlich im Büro angewendet, wie das automatisierte Erkennen von Informationen aus eingescannten Dokumenten. Vielmehr ist das Verfahren zunehmend in industriellen Produktionsszenarien zu finden. So unterstützen OCR-Techniken etwa, Objekte anhand aufgedruckter oder eingestanzter Buchstaben- oder Ziffernkombinationen während der gesamten Prozesskette zu identifizieren. Verglichen mit dem Büroumfeld stellen industrielle Einsatzgebiete höhere Anforderungen an OCR-Prozesse: Häufig sind hier die Zeichen auf den Werkstücken oder Teilen nicht klar leserlich, sondern verschwommen, verzerrt, unscharf, schräg oder auf stark reflektierenden Hintergründen dargestellt. Diese besonderen Bedingungen erfordern spezielle Technologien, die auch solche Texte erkennen können. Eine Lösung hierfür bietet die industrielle Bildverarbeitung (Machine Vision).
Identifikation durch Optik
Die industrielle Bildverarbeitung ist in der Lage, verschiedenste Objekte rein anhand optischer Merkmale wie Farbe, Form, Muster oder Textur zu identifizieren. Dabei werden an verschiedenen Stellen in der Fabrikhalle oder direkt an den Maschinen Kameras positioniert, die digitale Bildinformationen aufnehmen. Eine Machine-Vision-Software mit integrierter Bibliothek verarbeitet diese Daten und erkennt anhand von Merkmalen die aufgenommenen Gegenstände. Verglichen mit anderen Identifikationsverfahren ist die industrielle Bildverarbeitung sehr schnell, präzise und hat robuste Erkennungsraten. So findet die Technologie in unterschiedlichsten Einsatzszenarien Anwendung wie etwa in der Fehlerinspektion, der Qualitätssicherung oder in der Robotik.
Bei der optischen Zeichenerkennung setzen moderne Machine-Vision-Lösungen auch auf intelligente Mechanismen wie Deep Learning und neuronale Netze, um die Leseraten zu optimieren. Dabei handelt es sich um maschinelles Lernen, bei dem die Algorithmen Strukturen erkennen, die Ergebnisse evaluieren und diese in mehreren vorwärts oder rückwärts gerichteten Durchläufen selbstständig verbessern. Die Funktionalitäten neuronaler Netze sind in zahlreichen Schichten aufgeteilt, in denen komplexe Rechenoperationen mit unterschiedlicher Intensität stattfinden. Dadurch wird die Wahrscheinlichkeit korrekter Ergebnisse im Erkennungsprozess erhöht.
Training durch statistische Analyse von Big Data
Die Besonderheit von Deep-Learning-Technologien und neuronalen Netzen besteht darin, dass sie während der laufenden Anwendung stets dazulernen können. Am Anfang steht dabei ein initiales Training, bei dem die zu erkennenden Objekte quasi „konditioniert“ werden. Durch die statistische Analyse und Auswertung von sehr großen Datenmengen (Big Data) – das können mehrere Hunderttausend Bilder sein – erkennt die Technologie Muster, die auf die Zugehörigkeit des Objekts zu einer bestimmten Klasse schließen lassen. Den einzelnen Bildern werden dabei ein Label aufgesetzt, also mit einem bestimmten elektronischen Etikett versehen, das die jeweilige Klasse wie etwa „Buchstabe A“ oder „Zahl 5“ angibt. Durch die kontinuierliche Selbst-
optimierung des Systems steigen die Erkennungsgenauigkeit und damit zugleich die Qualität der Ergebnisse.
Dieser Trainingsaufwand ist jedoch aufgrund der enormen Menge der zu analysierenden Daten auf manuelle Weise kaum zu leisten. Moderne Machine-Vision-Lösungen sollen hier weiterhelfen: Die aktuelle Version 3 der Bildverarbeitungssoftware Merlic von MVTec etwa enthält einen auf Deep-Learning-Algorithmen basierenden OCR-Klassifikator, über den auf viele vortrainierte Schriften zugegriffen werden kann. Dadurch können die verschiedensten Schrifttypen wie Dot-Print-, Semi-, industrielle und dokumentenbasierte Fonts präzise mit einem einzigen, universellen, vortrainierten Klassifikator gelesen werden. Daraus resultieren Identifikationsraten, die sich in ihrer Robustheit durch andere Verfahren kaum realisieren lassen.
Problemlos erkannt werden auch die bereits erwähnten schwer leserlichen Zeichen, die im industriellen Umfeld üblich sind. Zudem können Anwender durch den Einsatz der Machine-Vision-Software den Aufwand für das Training reduzieren und so Kosten einsparen.
Der Mechanismus des eigenständigen Dazulernens beschränkt sich dabei nicht nur auf korrekte Ergebnisse, sondern ist zusätzlich auf Fehler anwendbar: Bei falschen Resultaten während des Trainingsprozesses verändert die Software bestehende Parameter und startet den Prozess neu. Dieser Vorgang wird so lange wiederholt, bis das Modell optimal trainiert ist, also keine Fehler mehr bei der Erkennung auftreten. Dabei wird auch der wichtigste Unterschied zwischen konventionellem maschinellen Lernen und Deep Learning ersichtlich: Für Letzteres sind keine Merkmale erforderlich, die manuell definiert und verifiziert werden müssen. Vielmehr nutzt der Entwickler lernende Algorithmen, um die eindeutigen Muster zur Unterscheidung von Klassen automatisiert zu finden und zu extrahieren.
Intelligente Algorithmen erkennen mehr
Die Smart Factory lebt von automatisierten und durchgängig vernetzten Wertschöpfungsprozessen. Wichtig hierbei ist auch die sichere Identifikation von Produkten oder Werkstücken anhand der aufgedruckten Ziffern- und Buchstaben-Codes. Machine-Vision-Lösungen mit integrierten Deep-Learning-Funktionen bieten intelligente Algorithmen und sind damit Garant für robuste Erkennungsraten, auch unter anspruchsvollen Bedingungen in der Produktion.