Ein alltägliches Gespräch ist im Normalfall weit von einem verschriftlichten Dialog entfernt. Es gibt nicht beendete Sätze, Umgangssprache und Stotterer – alles Herausforderungen für KI-Systeme. Selbst Menschen fällt es teilweise schon schwer, solchen Wortwechseln zu folgen und sie akkurat und sinngemäß wiederzugeben.
„Einer KI fiel dies bislang noch schwerer“, sagt Alex Waibel, Professor für Informatik am Karlsruher Institut für Technologie (KIT). Denn abgesehen von sprachlichen Hürden wie „Ähs“, „Ähms“ oder halbfertigen Sätzen würden Worte zudem häufig noch undeutlich ausgesprochen.
Menschliche Fehlerrate unterschritten
Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma Kites, einer Ausgründung des Karlsruher Forschungsinstituts, hat nun das weltweit erste Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme. Die Ergebnisse zeigen sie auf der Internet-Plattform ArXiv.
Waibel hat dabei bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz.
„Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei circa 5,5 Prozent. Unser System erreicht nun fünf Prozent.“
Niedrigste Latenz erreicht
Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel.
Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „Switchboard-Benchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forschergemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit, Spontansprache zu erkennen, herankommt oder diese übertrifft.
Inhalte oder Zusammenhänge verstehen könne ein Erkennungssystem alleine aber noch nicht, räumt Waibel ein. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“
Dialog-, Übersetzungs- und weitere KI-Module können durch die Neuentwicklung nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.