Mangelnde Generalisierungsfähigkeit Studie deckt fehlende Logik in Sprachmodellen auf

Tom Cruise ist der Sohn von Mary Lee Pfeiffer. Wie könnte eine so einfache Beziehungskonstellation eine KI vor Probleme stellen?

Bild: Frankie Fouganthin, CC BY-SA 4.0, via Wikimedia Commons
20.10.2023

Eine Studie ist zu dem Ergebnis gekommen, dass Sprachmodelle wie GPT-4 einfache Formeln wie „A ist B“ nicht zu „B ist A“ verallgemeinern können. Daraus leiten die Wissenschaftler das Phänomen des sogenannten Umkehrfluchs oder „Reversal Curse“ ab. Was bedeutet das für die Praxis?

Eine Untersuchung der Vanderbilt University, der UK Frontier AI Taskforce, von Apollo Research, der New York University, der University of Sussex und der University of Oxford ist zu dem Schluss gekommen: KI-Modelle schaffen den zum Verstehen und Generieren natürlicher Sprache notwendigen Umkehrschluss nicht. Wissenschaftler nennen dieses Phänomen auch Umkehrfluch. Sie verdeutlichen die Herausforderung, die durch diesen Fluch entsteht, anhand von verschiedenen Szenarien, sowohl mit fiktiven als auch mit realen Daten.

Ein prominentes Beispiel betrifft den Schauspieler Tom Cruise und seine Mutter Mary Lee Pfeiffer. Die Sprachmodelle (Large Language Models, LLM) können Mary Lee Pfeiffer korrekt als Mutter von Tom Cruise identifizieren, wie das Forscherteam in seiner Studie berichtet. Dagegen scheitern die LLM daran, Tom Cruise als den Sohn von Mary Lee Pfeiffer zu identifizieren, wenn entsprechend (umgekehrt) nach deren Sprössling gefragt wird. Konkret wird die Frage nach der Mutter des Stars richtig beantwortet, wird diese jedoch in umgekehrter Weise gestellt, wird also nach dem Sohn von Mary Lee Pfeiffer gefragt, stößt das Sprachmodell an seine Grenzen. Daraus folgern die an der Untersuchung Beteiligten, dass ein Sprachmodell auf der Grundlage der jeweiligen Trainingsdaten nur in eine Richtung zuverlässig antworten kann, nicht aber auch in die logisch andere Richtung.

Wer ist der neunte Bundeskanzler von Deutschland?

Dieser Mangel scheine eng mit der Art und Weise verbunden zu sein, wie diese Modelle trainiert werden und wie sie Informationen aus den Trainingsdaten abrufen sowie verarbeiten, stellt der KI-Experte Prof. Dr. Marco Barenkamp, Gründer und stellvertretender Aufsichtsratsvorsitzender der auf KI-Anwendungen spezialisierten Firma LMIS in Osnabrück, fest. Er führt als weiteres Beispiel für diesen Umkehrfluch die Darstellung von Olaf Scholz als den neunten Bundeskanzler der Bundesrepublik Deutschland an: „Wenn ein Sprachmodell mit Sätzen wie ‚Olaf Scholz ist der neunte Bundeskanzler der Bundesrepublik Deutschland‘ trainiert wurde, kann es die Frage ‚Wer ist Olaf Scholz?‘ problemlos beantworten mit ‚der neunte Bundeskanzler von Deutschland‘. Problematisch wird es für die großen Sprachmodelle demnach jedoch bei der Frage: ,Wer ist der neunte Bundeskanzler von Deutschland?‘ Dies veranschauliche die Schwierigkeit der Modelle, Informationen in umgekehrter Reihenfolge abzurufen und logisch zu verallgemeinern“, erklärt Barenkamp.

Der Wirtschaftsjurist bewertet die Konsequenzen des „Reversal Curse“ als weitreichend. Denn immerhin zeigen sie, dass trotz der beeindruckenden Fortschritte in der Sprachmodellierung die aktuellen LLM grundlegende Mängel in ihrem Verständnis und ihrer Verarbeitung von Informationen aufweisen. Dies könnte die Anwendbarkeit und Zuverlässigkeit dieser Modelle in realen Anwendungen einschränken, insbesondere in Szenarien, die ein tieferes Verständnis und logische Schlussfolgerungen erfordern, betont Barenkamp.

Umkehrschlüsse in der Juristik

Schließlich ist der Umkehrschluss zum Beispiel ein probates Hilfsmittel bei der Auslegung von Rechtsnormen. Er kommt in der Regel zur Anwendung, wenn eine Rechtsnorm nicht alle Möglichkeiten eines Sachverhalts umfasst. Dies bedeutet, dass mit dem Umkehrschluss aus der Rechtsnorm eine rechtlich verbindliche Aussage für den nicht erfassten Sachverhalt gefunden werden soll. Der Umkehrschluss dient also dazu, eine Regelungslücke zu schließen.

Insofern kommt diesem Argumentationsmittel eine nicht unerhebliche Bedeutung als juristische Methode zu. Wenn beispielsweise ein Gesetz besagt, dass Kinder unter 14 Jahren in Begleitung eines Erwachsenen kostenlosen Eintritt in einen Park erhalten, könnte durch Argumentum a contrario argumentiert werden, dass Kinder über 14 Jahren oder Kinder ohne Begleitung eines Erwachsenen nicht kostenlosen Eintritt erhalten.

Zieht man nun in Betracht, dass Sprachmodelle wie GPT-4 Juristen zukünftig dabei entlasten sollen, große Textkonvolute zu verarbeiten oder lange Verträge zu analysieren und Übersichten zu bestimmten Regelungen zu schreiben, dann wird klar, wie notwendig eine Verbesserung der Generalisierungsfähigkeiten von Sprachmodellen wäre. Dies ließe sich durch die Entwicklung neuer Trainingsansätze, die Verbesserung der Modellarchitekturen oder die Integration von zusätzlichem Kontext und externem Wissen erreichen, erklärt Barenkamp. Darüber hinaus weisen die Resultate der Studie aus seiner Sicht auf die Bedeutung hin, die Mechanismen der Wissensrepräsentation und logischen Verarbeitung in diesen Modellen besser zu verstehen, um robustere und effektivere Sprachmodelle zu entwickeln.

Erheblicher Verbesserungsbedarf

Es gebe somit deutlichen Verbesserungsbedarf bei der Generalisierung und logischen Deduktion, weil die Schwierigkeiten, die Sprachmodelle beim Umkehren von Beziehungen aufweisen, zeigten, dass trotz ihrer beeindruckenden Fähigkeiten zur Textgenerierung und Mustererkennung eine wesentliche Lücke in dieser Fähigkeit bestehe, fasst Barenkamp zusammen. Zudem hält er es für wichtig, dass die Entwickler und Nutzer von Sprachmodellen verstehen, wo die Grenzen dieser Technologien liegen. Das Bewusstsein über diese Limitationen könne nämlich helfen, ein entsprechendes Erwartungsmanagement zu betreiben und falsche Erwartungen dadurch zu vermeiden.

Der LMIS-Gründer hebt ebenso die Bedeutung der Trainingsdaten und der Art und Weise, wie Informationen in diesen Daten präsentiert werden, für die Leistungsfähigkeit der Sprachmodelle hervor. Das machen die Ergebnisse der Studie nach seiner Einschätzung unmissverständlich deutlich. Denn diese Informationen könnten demnach zu verbesserten Methoden zur Datenaufbereitung führen, um die Generalisierungsfähigkeiten der Modelle zu verbessern.

Darüber hinaus konstatiert Barenkamp hinsichtlich der Art und Weise, wie Sprachmodelle auf Fragen zu persönlichen Informationen reagieren, Klärungsbedarf in Bezug auf Privatsphäre und Ethik. Es sei wichtig, diese Modelle so zu gestalten, dass sie die Privatsphäre respektieren und gleichzeitig korrekte und nützliche Informationen bereitstellen.

Verwandte Artikel