KI schlägt Mensch bei Spracherkennung

Ein alltägliches Gespräch ist im Normalfall weit von einem verschriftlichten Dialog entfernt. Es gibt nicht beendete Sätze, Umgangssprache und Stotterer – alles Herausforderungen für KI-Systeme. Selbst Menschen fällt es teilweise schon schwer, solchen Wortwechseln zu folgen und sie akkurat und sinngemäß wiederzugeben.

„Einer KI fiel dies bislang noch schwerer“, sagt Alex Waibel, Professor für Informatik am Karlsruher Institut für Technologie (KIT). Denn abgesehen von sprachlichen Hürden wie „Ähs“, „Ähms“ oder halbfertigen Sätzen würden Worte zudem häufig noch undeutlich ausgesprochen.

Menschliche Fehlerrate unterschritten

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma Kites, einer Ausgründung des Karlsruher Forschungsinstituts, hat nun das weltweit erste Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme. Die Ergebnisse zeigen sie auf der Internet-Plattform ArXiv.

Waibel hat dabei bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz.

„Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei circa 5,5 Prozent. Unser System erreicht nun fünf Prozent.“

Niedrigste Latenz erreicht

Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel.

Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „Switchboard-Benchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forschergemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit, Spontansprache zu erkennen, herankommt oder diese übertrifft.

Inhalte oder Zusammenhänge verstehen könne ein Erkennungssystem alleine aber noch nicht, räumt Waibel ein. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“

Dialog-, Übersetzungs- und weitere KI-Module können durch die Neuentwicklung nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Weltweit kleinstes Board mit Intel Core Ultra

AIoT-Projekte beschleunigen

Test- und Zertifizierungszentrum für Zellen und Batterien

Deutsche Chipindustrie mit Bildungsoffensive unterstützen

Verstehen von Spontansprache KI schlägt Mensch bei Spracherkennung

Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben, ist eine der größten Herausforderungen für Künstliche Intelligenzen. Nun haben Forscher aber ein Computersystem entwickelt, das bei solchen Gesprächen eine höhere Erkennungsgenauigkeit an den Tag legen konnte als der Mensch.

Menschliche Fehlerrate unterschritten

Niedrigste Latenz erreicht

Karlsruher Institut für Technologie (KIT) Int. Department GmbH

Effizientere Fernwärmenetze durch Künstliche Intelligenz

AIoT-Projekte beschleunigen

Sind Unternehmen überfordert, das Potenzial neuer Technologien zu bewerten?

Wie KI die Wirtschaft nachhaltiger macht

Future H₂O – Effizienz und Digitalisierung in der Wasserversorgung

Zwischen Empathie und Daten – Der Einsatz von KI im HR

KI-Modellierung und Sensoren

Generative KI: Der Schlüssel zur individuellen Produktentwicklung

Die Wahrheit über AR in der Industrie: Lektion für GenAI aus früheren Hypes

Deutsche CEOs bewerten Wachstumschancen pessimistisch