Verhalten von Fähigkeiten trennen Werden Sprachmodelle wie ChatGPT dümmer?

Eine Studie zur Entwicklung von GPT-4 und GPT-3.5 zeigt Leistungsschwankungen, was die Integration in Arbeitsabläufe erschwert, und wirft die Frage auf, ob größere Modelle nicht unbedingt intelligenter oder effizienter sind.

Bild: iStock, amgun
25.09.2023

Die Entwicklung von Künstlicher Intelligenz, insbesondere von Sprachmodellen wie GPT-4, wirft Fragen nach ihrer Stabilität und ihrem Verhalten auf, da Forscher Leistungsschwankungen und Herausforderungen bei der Integration in Arbeitsabläufe feststellen.

Entwicklungen im Bereich der Künstlichen Intelligenz (KI) sind in jüngster Zeit insbesondere durch Sprachmodelle wie ChatGPT und dessen neueste Ausführung GPT-4 in den Fokus von Fachleuten und Öffentlichkeit gerückt. Denn diese Programme vermochten durch ihre erstaunlichen Fähigkeiten im Umgang mit Texten und Sprache zu verblüffen.

Skeptiker sahen dadurch bereits ganze Berufsgruppen dem Untergang geweiht und Prüfer fragten sich, wie sie etwa die tatsächlichen Elaborate von Probanden von KI-verfassten Arbeiten unterscheiden können sollten. Unterdessen beschäftigt wissenschaftliche Kreise, gerade auch vor dem Hintergrund eines wahrgenommenen Wandels im Bereich der Kompetenzen der beliebten Tools, jedoch eine ganz andere zentrale Frage: Werden diese Sprachmodelle trotz der exponentiellen Zunahme ihrer Datenmenge und Modellgröße „dümmer“?

Die Forschung hinter ChatGPTs Veränderungen

Hintergrund der entsprechenden Diskussionen in der Fachwelt ist eine unlängst veröffentlichte Studie von Wissenschaftlern der Stanford University und der University of California in Berkeley, die sich dem Thema widmete, wie sich ChatGPT im Laufe der Zeit verändert. Denn die Forscher hatten Leistungsschwankungen der KI festgestellt.

In ihrer Studie erläutern sie dazu, dass ein Sprachmodell wie GPT-4 im Laufe der Zeit auf der Grundlage von Daten und des Feedbacks von Usern sowie von Designänderungen aktualisiert werden kann. Derzeit ist demnach jedoch noch unklar, wann und wie dies bei GPT-3.5 und GPT-4 geschieht, und wie jede dieser Aktualisierungen das Verhalten der Sprachmodelle beeinflusst.

Mögliche Auswirkungen auf nachgelagerte Arbeitsabläufe

Diese Unklarheit mache es wiederum schwierig, GPT-3.5 und GPT-4 stabil in größere Arbeitsabläufe zu integrieren, schreiben die Verfasser der Studie. Denn wenn sich die Reaktion des Sprachmodells auf eine Eingabeaufforderung, wie etwa seine Genauigkeit oder Formatierung, plötzlich ändert, könnte dies nachgelagerte Arbeitsabläufe unterbrechen. Außerdem wird es dadurch schwierig, wenn nicht gar unmöglich, Ergebnisse aus ein und demselben Sprachmodell zu reproduzieren.

Um in diesen Fragen mehr Klarheit zu schaffen, hat die Forschergruppe das Verhalten der GPT-3.5 und GPT-4 Versionen vom März 2023 und Juni 2023 miteinander verglichen. Dabei wurden sieben verschiedene Aufgabenbereiche untersucht:

  1. das Lösen von mathematischen Problemen

  2. die Beantwortung heikler Fragen (die zum Beispiel Vorurteile gegenüber Minderheiten als Fakten unterstellen)

  3. Antworten auf Meinungsumfragen

  4. die Fähigkeit, wissensintensive Fragen auf Basis einer Vielzahl von Dokumenten zu beantworten („multi-hop questions“)

  5. Code-Generierung

  6. die Beantwortung von Prüfungsfragen für die US-Zulassung als Arzt

  7. Aufgaben zum visuellen Denken

Das Ergebnis: Die Leistungen und das Verhalten beider GPT-Versionen schwankten von März bis Juni erheblich. Bei einigen Aufgaben wurden die Leistungen im Laufe der Zeit sogar erheblich schlechter, während sie sich bei anderen Problemen verbesserten.

Dazu ein Beispiel:

Im März 2023 hatte GPT-4 bei der Erkennung von Primzahlen und zusammengesetzten Zahlen eine Trefferquote von 84 Prozent. Im Juni 2023 lag die Trefferquote nur noch bei 51 Prozent. Die Forscher ziehen aus ihren Ergebnissen den Schluss, dass die Sprachmodelle beim Einsatz für professionelle Anwendungen kontinuierlich überwacht werden müssen, zumal die Mechanismen, auf deren Basis sie aktualisiert werden, völlig intransparent sind.

In Zukunft wollen die US-Wissenschaftler ihre Forschungsergebnisse zum Verhalten von GPT-3.5, GPT-4 sowie weiteren Sprachmodellen nun im Rahmen eines Langzeitprogramms regelmäßig aktualisieren, wie sie ankündigten. Aus ihrer jüngsten Untersuchung blieb allerdings die Fragestellung zurück, ob die Sprachmodelle tatsächlich „dümmer“ werden?

Eine solche Interpretation der Studienergebnisse hält der KI-Fachmann Prof. Dr. Marco Barenkamp, Gründer und Aufsichtsratsvorsitzender des auf die Anwendung von Künstlicher Intelligenz spezialisierten Unternehmens LMIS in Osnabrück, jedoch für unangebracht: Vielmehr gelte es, die Fähigkeiten und das Verhalten von KI-Modellen von einander zu unterscheiden beziehungsweise zu trennen, betont der promovierte Wirtschaftsinformatiker.

„Denn während Fähigkeiten die potenzielle Leistung und den Funktionsumfang eines Modells darstellen, repräsentiert das Verhalten die tatsächlichen Antworten und Reaktionen des Modells in bestimmten Kontexten“, erläutert er. Daher sei es möglich, dass ein Modell mit hohen Fähigkeiten unerwünschtes oder fehlerhaftes Verhalten zeige, basierend auf den Daten, mit denen es trainiert wurde, oder den Feedbackschleifen, die es erfahren hat.

Paradox des Gedächtnisschwundes

Prof. Barenkamp, der als Vorsitzender des wissenschaftlichen Beirats der Studiengesellschaft für Künstliche Intelligenz den öffentlichen Diskurs über Fragen der Künstlichen Intelligenz mit seiner Expertise unterstützt, spricht in diesem Zusammenhang von dem „Paradox des Gedächtnisschwundes“.

Wobei „Gedächtnisschwund“ demnach so zu verstehen ist, dass GPT-4 trotz seiner enormen Datenkapazität Schwierigkeiten zu haben scheint, ältere Informationen korrekt zu priorisieren oder sogar zu behalten. Dies könnte bedeuten, dass, obwohl das Modell kontinuierlich mit Daten gefüttert wird, es nicht notwendigerweise alle diese Daten in einem nützlichen oder zugänglichen Format speichert, folgert der Experte.

Die Tücken der Modellgröße

Zudem wirft die aktuelle Debatte aus seiner Sicht auch die Frage nach der Relevanz der Modellgröße auf: „Ein größeres Modell bedeutet scheinbar nicht unbedingt ein intelligenteres oder effizienteres Modell, auch wenn dies lange vermutet wurde“, stellt Prof. Barenkamp fest. Mehr noch: Es könnte sogar zu Einbußen bei der Effizienz und Genauigkeit führen, vor allem dann, wenn das Modell mit sich widersprechenden oder fehlerhaften Daten konfrontiert wird.

Um diese Problematik zu verdeutlichen, zieht der KI-Sachverständige eine Parallele zum menschlichen Leben: Die Unterscheidung zwischen Verhalten und Fähigkeit finde sich nicht nur in der Welt der Künstlichen Intelligenz, sondern spiegele sich auch beim Menschen wider, erklärt Prof. Barenkamp, wie etwa im Falle eines hochbegabten Kindes in einem Schulsystem.

„Dieses Kind besitzt die Fähigkeit, beispielsweise hoch-komplexe mathematische Probleme zu lösen oder literarische Texte auf höchstem Niveau zu interpretieren, und hat somit ein Lernniveau, das weit über dem liegt, was vom Alter her erwartet wird“, so der Fachmann. Trotz dieser überragenden Fähigkeiten könnte das Kind in einem herkömmlichen Klassenzimmer aber unangemessenes Verhalten zeigen – indem es aus Langeweile stört oder sogar rebelliert.

Fehlinterpretationen durch einfache Schlussfolgerungen vermeiden

Ein solches Verhalten könnte allzu leicht als mangelnde Intelligenz oder Motivation fehlinterpretiert werden, während es in Wirklichkeit ein Ausdruck von Unzufriedenheit oder Frustration ist, gibt Prof. Barenkamp zu bedenken. Hier wäre es ein Fehler, das Verhalten als direkte Reflexion der Fähigkeit zu sehen. Und genauso, wie man bei einem Menschen zwischen seinem Potenzial (Fähigkeiten) und seinen aktuellen Handlungen (Verhalten) unterscheiden muss, sollte man bei KI-Modellen auch vorgehen, postuliert er.

Denn ein Modell könne über das Potenzial verfügen, hochkomplexe Aufgaben zu erfüllen, aber unter bestimmten Umständen oder bei bestimmten Anfragen unerwünschtes Verhalten zeigen. Diese Differenzierung hält Prof. Barenkamp für entscheidend, um die Möglichkeiten der KI beziehungsweise großer Sprachmodelle objektiv zu beurteilen.

„Es mag verführerisch sein, einfache Schlussfolgerungen zu ziehen, doch die wissenschaftliche Untersuchung zeigt, dass die Dinge nicht schwarz-weiß sind“, stellt der KI-Fachmann zusammenfassend fest. Daher hält er es für unerlässlich, das Verhalten von den Fähigkeiten eines Modells zu trennen und zu erkennen, dass unerwünschtes Verhalten nicht unbedingt eine Einschränkung der Fähigkeiten eines Modells bedeutet.

Verwandte Artikel