Schlussfolgerungsfähigkeiten von LLMs Sprachmodelle werden logischer

Sprachmodelle haben aktuell noch Schwierigkeiten, numerische oder symbolische Schlussfolgerungen zu ziehen. Eine neue Methode verhilft ihnen zu logischem Denken abseits von natürlicher Sprache.

Bild: iStock, BeritK
19.07.2024

Große Sprachmodelle, wie sie beispielsweise von ChatGPT verwendet werden, erlauben die Bearbeitung vielfältiger Anfragen. Forscher am MIT wollen sie nun noch intelligenter machen. Mit einer Methode namens Natural Language Embedded Programs lassen sie die Sprachmodelle Python-Programme erstellen und ausführen.

Große Sprachmodelle (Large Language Models, LLMs) verwenden in der Regel nur natürliche Sprache, um Informationen zu verarbeiten und Anfragen zu beantworten. Das kann es ihnen erschweren, Aufgaben auszuführen, die numerische oder symbolische Schlussfolgerungen erfordern. Ein umfangreiches Sprachmodell könnte sich beispielsweise eine Liste der jüngsten US-Präsidenten und ihrer Geburtstage merken und diese rezitieren, aber dasselbe Modell könnte bei der Frage „Welche nach 1950 gewählten US-Präsidenten wurden an einem Mittwoch geboren?“ versagen (die Antwort lautet Jimmy Carter).

Forscher vom MIT und anderen Instituten haben nun eine neue Technik vorgeschlagen, die es großen Sprachmodellen ermöglichen soll, Aufgaben in natürlicher Sprache, Mathematik, Datenanalyse und symbolischem Denken zu lösen, indem sie Programme erzeugen. Ihr „Natural Language Embedded Programs“ (NLEP) genannter Ansatz besteht darin, ein Sprachmodell aufzufordern, ein Python-Programm zu erstellen und auszuführen, um die Anfrage eines Nutzers zu lösen und die Lösung dann in natürlicher Sprache auszugeben.

Transparente Antworten

Die MIT-Forscher fanden heraus, dass NLEPs es großen Sprachmodellen ermöglichen, eine höhere Genauigkeit bei einer Vielzahl von logischen Aufgaben zu erreichen. Der Ansatz ist außerdem verallgemeinerbar, das heißt, eine NLEP-Eingabeaufforderung kann für mehrere Aufgaben wiederverwendet werden.

NLEPs verbessern darüber hinaus die Transparenz, da Nutzer das Programm überprüfen können. So können sie sehen, wie das Modell die Anfrage begründet hat, und es gegebenenfalls korrigieren, falls die Antwort falsch war.

„Wir wollen, dass die KI komplexe Schlussfolgerungen auf transparente und vertrauenswürdige Art und Weise durchführt“, sagt Hongyin Luo, Postdoc am MIT und Mitautorin einer Arbeit über NLEPs. „Es liegt noch ein langer Weg vor uns, aber wir haben gezeigt, dass die Kombination der Fähigkeiten von Programmierung und natürlicher Sprache in großen Sprachmodellen ein sehr guter erster Schritt in Richtung einer Zukunft ist, in der die Menschen vollständig verstehen und darauf vertrauen können, was in ihrem KI-Modell vor sich geht.“

Problemlösung in vier Schritten

Viele gängige LLMs arbeiten mit der Vorhersage des nächsten Wortes oder Tokens, wenn eine Eingabe in natürlicher Sprache vorliegt. Modelle wie GPT-4 können zwar zum Schreiben von Programmen verwendet werden, aber sie betten diese Programme in die natürliche Sprache ein, was zu Fehlern in den Schlussfolgerungen oder Ergebnissen des Programms führen kann.

NLEPs verfolgen einen umgekehrten Ansatz. Sie enthalten eine Problemlösungsvorlage mit vier Schritten. Zunächst ruft das Modell die notwendigen Pakete oder Funktionen auf, die es zur Lösung der Aufgabe benötigt. Im zweiten Schritt werden natürlichsprachliche Repräsentationen des für die Aufgabe erforderlichen Wissens importiert (etwa eine Liste der Geburtstage von US-Präsidenten). Im dritten Schritt implementiert das Modell eine Funktion, mit der die Antwort berechnet werden kann. Und im letzten Schritt gibt es das Ergebnis in Form einer Zeile in natürlicher Sprache aus, bei Bedarf mit einer automatischen Datenvisualisierung. „Es ist wie ein digitaler Taschenrechner, der immer das richtige Ergebnis ausgibt, solange das Programm korrekt ist“, beschreibt Luo.

Diese Arbeitsweise ermöglicht eine größere Effizienz als einige andere Methoden. Denn wenn ein Nutzer viele ähnliche Fragen hat, kann er ein Kernprogramm erstellen und dann bestimmte Variablen ersetzen, ohne das Modell wiederholt ausführen zu müssen.

Ein Prompt, viele Aufgaben

Um das Modell zur Erstellung eines NLEP aufzufordern, geben die Forscher ihm die allgemeine Anweisung, ein Python-Programm zu schreiben, stellen zwei NLEP-Beispiele (eines mit Mathematik und eines mit natürlicher Sprache) und eine Testfrage bereit. „Normalerweise muss man bei dieser Art von Prompts für jede Aufgabe einen eigenen Prompt entwerfen. Wir haben herausgefunden, dass wir einen Prompt für viele Aufgaben verwenden können, da es sich nicht um einen Prompt handelt, der den LLMs beibringt, ein Problem zu lösen, sondern um einen Prompt, der den LLMs beibringt, viele Probleme durch das Schreiben eines Programms zu lösen“, erklärt Luo.

„Wenn Sprachmodelle mit Code argumentieren, eröffnen sich viele Möglichkeiten für den Einsatz von Tools, die Validierung von Ergebnissen, ein strukturierteres Verständnis der Fähigkeiten und der Denkweise des Modells und vieles mehr“, ergänzt Leonid Karlinsky, leitender Wissenschaftler am MIT-IBM Watson AI Lab.

Ein Plus für den Datenschutz

In Tests erreichten NLEPs eine Genauigkeit von über 90 Prozent, als sie GPT-4 aufforderten, eine Reihe von Aufgaben zum symbolischen Denken zu lösen. Dazu zählten beispielsweise das Verfolgen von gemischten Objekten, ein 24er-Spiel oder Aufgaben zum Befolgen von Anweisungen und zur Klassifizierung von Texten. Die Forscher fanden heraus, dass NLEPs sogar eine um 30 Prozent höhere Genauigkeit aufwiesen als aufgabenspezifische Prompting-Methoden. Die Methode zeigte auch Verbesserungen gegenüber Open-Source-LLMs.

Neben der Erhöhung der Genauigkeit großer Sprachmodelle könnten NLEPs auch den Datenschutz verbessern. Da NLEP-Programme lokal ausgeführt werden, müssen sensible Nutzerdaten nicht an ein Unternehmen wie OpenAI oder Google gesendet werden, damit sie von einem Modell verarbeitet werden können. Darüber hinaus ließe sich bei kleinen Sprachmodellen eine bessere Leistung erzielen, ohne dass ein Modell für eine bestimmte Aufgabe neu trainiert werden muss, was ein kostspieliger Prozess sein kann.

„Es ist keine Zauberei. Wir haben kein teureres oder ausgefalleneres Sprachmodell. Wir verwenden lediglich die Programmerzeugung anstelle der Erzeugung natürlicher Sprache und können so die Leistung erheblich steigern“, sagt Luo.

Verbesserungsbedarf bei kleinen Modellen

Ein NLEP hängt jedoch von der Fähigkeit des Modells zur Programmerstellung ab, sodass die Technik bei kleineren Modellen, die auf begrenzten Datensätzen trainiert wurden, nicht so gut funktioniert. Für die Zukunft planen die Forscher, Methoden zu untersuchen, mit denen kleinere Sprachmodelle effektivere NLEPs erzeugen können. Darüber hinaus wollen sie die Auswirkungen von Prompt-Variationen auf NLEPs untersuchen, um die Robustheit der Argumentationsprozesse des Modells zu verbessern.

Die Forschungsarbeit wurde zum Teil vom Center for Perceptual and Interactive Intelligence of Hong Kong unterstützt.

Verwandte Artikel