Selbst die besten KI-Sprachmodelle, auch bekannt als Language Learning Models, beziehungsweise LLM, versagen bei logischen Fragestellungen dramatisch. Zu dieser Erkenntnis gelangen Forschende des Jülich Supercomputing Centre (JSC), der School of Electrical and Electronic Engineering der Universität Bristol und dem KI-Labor LAION. In ihrem Paper, „Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models", attestieren die Wissenschaftler:innen den getesteten topmodernen LLM einen „starken Zusammenbruch der Funktions- und Denkfähigkeit“ und vermuten, dass Sprachmodelle zwar die grundlegende Fähigkeit haben, Schlussfolgerungen zu ziehen, diese aber nicht zuverlässig abrufen können.
Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti und Jenia Jitsev, Verfassende der Studie, fordern die „wissenschaftliche und technologisch Gemeinschaft“ dazu auf „eine dringende Neubewertung der behaupteten Fähigkeiten der aktuellen Generation von LLM anzuregen.“ Darüber hinaus verlangen sie die Entwicklung standardisierter Benchmarks, um Schwächen von Sprachmodellen bezüglich ihrer Argumentationsfähigkeit aufzudecken – denn gängige Tests haben diesen gravierenden Fehler bisher offenbar nicht erkannt.
Die Krux des plausiblen Argumentierens
Die Aufgabe, in der Studie „AIW-Problem“ genannt, ist im Grunde einfach: „Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alices Bruder?“ Die Werte für N und M (immer natürliche Zahlen) und die Reihenfolge der Geschwister variierten. So haben die Forschenden verschiedene Kombinationen von Zahlen und Aufgabenstellungen verwendet, um einen genauen Überblick darüber zu erhalten, wie sich die verschiedenen Modelle bei unterschiedlichen Varianten verhalten. Unabhängig von all dem ergibt sich die richtige Antwort stets aus der Addition von Alice und ihren Schwestern (M + 1). Eine Logik, der bereits die meisten Kinder im Grundschulalter folgen können. Die Sprachmodelle konnten hingegen die Aufgabe nicht oder nur sporadisch lösen. Hier ein Beispiel von einer LLM, die mit der einfachsten Version der Frage konfrontiert wurde:
„Alice hat vier Brüder und auch eine Schwester. Wie viele Schwestern hat der Bruder von Alice?“ – „Ein klassisches Querdenkerrätsel! Schauen wir es uns genauer an: Alice hat vier Brüder. Alice hat auch eine Schwester (sie selbst). Jeder von Alices Brüdern hat also... (Trommelwirbel) ...eine Schwester, und das ist Alice selbst! Die Antwort lautet also: Jeder von Alices Brüdern hat eine Schwester.“
Das mag logisch klingen, ist aber dennoch falsch (natürlich haben Alices Brüder zwei Schwestern). Auch die anderen getesteten Sprach-KI geraten in Schwierigkeiten – je nach Fragestellung in große. Mitunter verstricken sie sich in absurde Argumentationsstränge, kommen wiederholt zu falschen Ergebnissen und erklären diese für „korrekt“. Somit sind nicht nur die falschen Ergebnisse problematisch, sondern auch die Tatsache, dass die KI pseudo-sinnig argumentieren, um diese zu untermauern. Auch Interventionen der Wissenschaftler:innen, die dazu auffordern sollen, ihre Antworten kritisch zu überprüfen, helfen nicht. Entsprechend bewerten die Forschenden: „[…] die Modelle [zeigen] auch ein starkes Selbstvertrauen in ihre falschen Lösungen […], während sie oft unsinnige […] Erklärungen liefern, um die Gültigkeit ihrer eindeutig fehlgeschlagenen Antworten zu rechtfertigen und zu untermauern, so dass sie plausibel klingen.“
Mehr als jede zweite Antwort falsch
Insgesamt lagen die KI mit ihrer Trefferquote bei weit unter 50 Prozent, wobei größere Modelle generell deutlich besser abschnitten als kleinere (so zum Beispiel GPT-4o mit einer korrekten Antwortrate von etwas mehr als 60 Prozent), was wiederum die Vorteile größerer Skalen unterstreicht. Dennoch schneiden sie nicht so gut ab wie man es von einem Modell mit zuverlässiger Argumentationsfähigkeit erwartet. Die starken Schwankungen, die selbst bei geringfügigen Änderungen des AIW-Problems auftreten, sind ein klares Indiz dafür, dass die Modelle nicht solide schlussfolgern können. Deshalb geraten sie bereits bei geringfügigen Problemänderungen, die für eine korrekte Lösung keine Rolle spielen sollte, durcheinander. Eine schwierigere Version der Fragestellung („AIW+ Problem“) brachte schließlich alle Modelle an den Rand des „Denkvermögens“. Doch warum?
Den Forschenden zufolge erreichen viele der getesteten Modelle sehr hohe Punktzahlen in diversen standardisierten Benchmarks, die verschiedene Fähigkeiten, einschließlich des logischen Denkens, testen sollten. An dem sehr einfachen AIW-Problem jedoch scheitern sie. In ihrem Paper vermuten die Wissenschaftler:innen daher, „dass diese Benchmarks die Defizite in der grundsätzlichen Argumentationsfähigkeit dieser Modelle nicht richtig widerspiegeln" und stellen dabei die Verwendung der derzeitigen standardisierten Benchmarks für den Modellvergleich in Frage.
Sprachmodelle auf dem Teststand
Während die Begutachtung des Papers durch Fachkolleg:innen noch aussteht, schlagen dessen Ergebnisse bereits hohe Wellen. Wie kompetent sind LLMs wirklich? Was heißt es für den Einsatz von LLM, wenn diese an Rätseln auf Grundschulniveau scheitern? Mitautor Jenia Jitsev (JSC) berichtet: „Aufgrund unseres Papers werden wir von Diskussionen und Anfragen geradezu überwältigt.“
Die Erkenntnisse der Wissenschaftler:innen stellen vieles in Frage – und machen weitere Studien zur Kompetenz von Sprachmodellen zwingend erforderlich. Jitsev sagt: „Unsere Arbeit liefert äußerst wichtige neue Einblicke darin, inwiefern Sprachmodelle dazu fähig sind, korrekte Schlussfolgerungen zu ziehen, die auf einer vernünftigen Argumentation beruhen. Hier sind weitere Forschungen erforderlich, um zu verstehen, wie und warum die logische Beweisführung der aktuellen Modelle bei so einfachen Problemen versagt.“