Heute stellt ein System den Nutzer noch vor die gleichen Optionen. Egal wie alt er ist, welches Geschlecht er hat und in welcher Verfassung er sich befindet. Es antwortet nur auf sehr spezifische Anweisungen: eine Bildschirmberührung, eine Texteingabe, einen gesprochenen Befehl. In naher Zukunft jedoch werden Systeme ihre Funktionen und Leistung dem Nutzer anpassen – nach dessen Geschlecht, Alter, Fähigkeitsniveau und sogar der Stimmung beziehungsweise Laune.
Die Herausforderung
Doch Vision ist eine Herausforderung. Die erfolgreiche Integration von Visions-Funktionalitäten in ein eingebettetes System hängt kritisch von der Qualität der eingesetzten Gesichts- und Gestenerkennungsalgorithmen ab. Es geht darum, ein verlässliches Ergebnis zu liefern ohne übermäßig viele Systemressourcen zu verbrauchen.
Wo könnten diese Algorithmen herkommen? Auch ausgereifte Techniken auf diesem Gebiet sind prozessorhungrig und speicherintensiv. Zusätzliche Visionsfähigkeiten verlangen also nach zusätzlichen Systemressourcen.
Zur Integration einer Kamera und Linse sind Kenntnisse in optischem Design erforderlich, ein Gebiet auf dem sich wenige Integratoren wohlfühlen. Diese müssen auch die Genauigkeit und Konsistenz der ausgegebenen Ergebnisse einschätzen und sicherstellen, dass das Visions-Modul für die beabsichtigte Anwendung richtig kalibriert wurde. Sofort einsetzbare Module, bei deren Entwicklung all diese Überlegungen bereits mit einbezogen wurden, sind daher eine willkommene Innovation.
HVC von Omron Electronic Components ist das erste Visions-Modul, das speziell für Embedded-Systems-Anwendungen konzipiert wurde. Es ist auch in niedrigen Stückzahlen erhältlich und kann von jedem Designer einfach integriert werden, ohne dass er die komplexen Algorithmen verstehen muss, die zur Erkennung von Gesten, Gesichtern, Mienen oder der optischen Gestaltung notwendig sind. Das Modul ist eine voll integrierte, steckerfertige Komplettlösung. Der Entwickler muss lediglich die ausgegebenen Daten in seinem System weiterverarbeiten, damit es angemessen reagiert.
Die Kernsoftware
Module wie das HVC setzen Consumerelektronik-Technologie ein. HVC basiert auf Omrons OKAO-Vision-Software, einem bewährten Satz von Bilderkennungsalgorithmen, der in über 500 Millionen Digitalkameras, Mobiltelefonen und Überwachungsrobotern auf der ganzen Welt verwendet wird. Das HVC-Modul verbindet zehn entscheidende Bildverarbeitungsfunktionen mit einer Kamera und einer externen Schnittstelle. Produktentwickler können aufgrund der Erfassung von Gesicht, Hand oder Körper eines Menschen die Funktionen Gesichtserkennung, Geschlechtserkennung, Altersschätzung, Einschätzung der Gemütsverfassung, des Gesichtsausdrucks, der Blickrichtung und der Blinzeltätigkeit implementieren. In jedem Fall gibt das Modul einen Wert zusammen mit einem Grad der Sicherheitsvermutung aus, so dass der Programmierer das Ansprechverhalten für jede individuelle Anwendung richtig konfigurieren kann.
Zu den Schlüsseleigenschaften des Moduls gehören die Geschwindigkeit und Konsistenz des Ansprechverhaltens und die Entfernung, über die Messungen vorgenommen werden können. Zum Beispiel kann HVC ein Gesicht über eine Distanz von 1,3 Metern in 1,1 Sekunden erfassen, erkennen bzw. wiedererkennen und mit seiner Messung ein Vertrauensniveau bereitstellen. Die Einschätzung ob geblinzelt oder in welche Richtung geblickt wird erfordert weniger als eine Sekunde. Die Stimmung eines Subjekts bewertet das Modul anhand von fünf Gesichtsausdrücken. Überdies kann es einen menschlichen Körper auf bis zu 2,8 Metern und eine Hand auf bis zu 1,5 Metern Entfernung erkennen. HVC bettet die OKAO-Software in eine Hardware-Plattform mit Kamera, Prozessor und einer UART-Schnittstelle ein, deren digitales und optisches Design speziell für diese Anwendung optimiert wurde.
Die für diese Funktionen nötigen Algorithmen sind komplex und verarbeitungsintensiv, werden aber zur Gänze innerhalb des Moduls abgearbeitet. Die anfallenden speicher- und prozessorintensiven Berechnungen beanspruchen das Hostsystem in keinster Weise. Auch befreit das Modul den Systementwickler davon, Zeit für das Erstellen und Testen der Algorithmen aufwenden zu müssen, was ja eine vielschichtige und zeitraubende Aufgabe ist.
Das Potenzial sehender Systeme
Im Consumer-Bereich gibt es mit Kameras ausgestattete Geräte bereits seit längerem. Wenn Systeme in der Lage sind, immer besser zu interpretieren was sie sehen, sorgen diese Kameras für eine einfachere und reibungslosere Interaktion zwischen Mensch und Maschine und somit für verbesserte Lebens- und Arbeitsbedingungen.
Sehende Systeme müssen Anweisungen nicht mehr nur passiv Folge leisten. Sie arbeiten besser und stromsparender. Heiz-, Beleuchtungs- und Klimaanlagen können zuverlässig nur genutzte Gebäudeteile ansteuern und versorgen, ungenutzte ignorieren. Sehende Systeme erkennen Schläfrigkeit und Unaufmerksamkeit und können autorisierte Nutzer identifizieren. Kurzum, sie können proaktiv auf die Person oder Personen im Umfeld reagieren und die eigene Reaktion, beispielsweise der Anzahl der Vorübergehenden oder dem Alter, Geschlecht und Stimmung eines Nutzers, anpassen.
Ein aktuelles Smartphone kann seinen Besitzer bereits heute erkennen und reagiert entsprechend. Bei hochvolumigen Consumer-Elektronikgeräten gibt es Gesichtserkennung bereits seit geraumer Zeit; das Potenzial von Visions-Funktionalitäten für Embedded Systeme wird allerdings erst allmählich erkannt.