Probleme durch unüberwachte Lernmethoden Dominoeffekt: So verbreiten sich Fehler in KI-Modellen

Fehlerhafte Vorhersagestrategien, die sich durch gängige maschinelle Lernmodelle verbreiten, können den sogenannten Clever-Hans-Effekt auslösen, bei dem sich Entscheidungen auf irrelevante oder unerwartete Muster stützen.

Bild: publish-industry, DALL·E
21.03.2025

KI-Modelle wie GPT, Llama, CLIP und Co. dienen aktuell bereits häufig als Ausgangsbasis für spezialisierte KI-Modelle die in Wissenschaft, Industrie und nicht zuletzt in der medizinischen Diagnostik eingesetzt werden. Das macht die Frage nach der Erklärbarkeit umso wichtiger: Wie korrekt und transparent treffen die Ursprungsmodelle ihre Entscheidungen? Wo kommen die Daten für die Entscheidungsgrundlage her? Und: Wo haben sich eventuell Fehler einschlichen?

Bei GPT und Co handelt es sich um sogenannte Foundation-Modelle, sie werden mithilfe von sogenannten unüberwachten Lernmethoden (unsupervised Learning), beispielsweise durch Selbstüberwachung, trainiert. Das Problem: Stützt sich ein Foundation-Modell bei seinen korrekten Entscheidungen – beispielsweise – auf Artefakte in den Daten, dann kann dieser sogenannte Clever-Hans-Effekt das Modell erheblich beeinträchtigen. Noch schwerwiegender: Dieser Effekt überträgt sich dann auch auf alle Modelle, die auf dem kompromittierten Foundation-Modell aufbauen.

Clever-Hans-Effekt: richtige Vorhersagen aufgrund irrelevanter Daten

Ein Team von Wissenschaftlern des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin hat mehrere gängige Foundation-Modelle im Bereich der Bilderkennung analysiert und nachgewiesen, dass diese tatsächlich von Clever-Hans-Effekten betroffen sind. Diese fehlerhafte Vorhersagestrategie blieb bei gängigen Evaluationsbenchmarks unentdeckt und wurde jetzt erstmals nachgewiesen.

Der Clever-Hans-Effekt im maschinellen Lernen beschreibt, wenn ein KI-Modell richtige Vorhersagen trifft, aber für diese Entscheidung irrelevante oder unerwartete Muster nutzt – ähnlich wie das berühmte Pferd Clever Hans, das nicht rechnen konnte, aber erfolgreiche entsprechende Signale seines Besitzers las. Ein Beispiel für den Clever-Hans Effekt wäre ein Bildklassifikationsmodell, das zum Beispiel Pferde erkennen soll, seine Entscheidung aber schwerpunktmäßig auf der Existenz eines unbemerkten Schriftzuges (Pferdebilder) am Rand der Bilder trifft.

Für die neue Publikation demonstrierten die Forscher die Existenz der Clever-Hans-Effekte beispielsweise im Kontext medizinischer Daten: Das Foundation-Modell PubMedCLIP, das für medizinische Bildanalyse entwickelt wurde, erkennt zwar erfolgreich zwei ähnliche Lungenröntgenbilder als ähnlich, trifft seine Entscheidung jedoch hauptsächlich aufgrund irreführender Text-Anmerkungen auf beiden Röntgenbildern und nicht aufgrund von ähnlichen Pixelverteilungen in den Lungenregionen. Dies kann zu erheblichen Problemen bei realen diagnostischen Aufgaben führen.

Die fehlerhafte Strategie des Modells, sich auf Text-Anmerkungen statt auf Bildinformationen zu stützen, ist jedoch ein direktes „Erbe“ des Ausgangs-Modell CLIP. CLIP ist ein weitverbreitetes Foundation-Modell für Bilddatenanalyse, das auf unüberwachtem Lernen beruht. Da CLIP, genau wie viele weitere bekannte Foundation-Modelle, die auf unüberwachtem Lernen beruhen, als Basis für diverse neue Anwendungen dient, werden diese Modelle zu einer zentralen potenziellen Fehlerquelle. „Wir halten es für essenziell, das unüberwachte Lernparadigma, auf dem diese Modelle basieren, zu überdenken. Nur so können wir sicherstellen, dass die darauf aufbauenden spezialisierten Modelle zuverlässig sind und nicht mit Clever-Hans-Effekten kontaminiert werden“, betont BIFOLD-Wissenschaftler Prof. Dr. Grégoire Montavon.

Erklärbare KI deckt Clever-Hans-Effekte auf

Entdeckt haben die Wissenschaftler diesen „Domino-Effekt“ mithilfe von modernen Methoden der Erklärbaren KI auf der Basis von LRP (Layer-wise Relevance Propagation). „Besonders nützlich ist hierbei die Erklärbare-KI-Methode BiLRP, die nicht nur aufzeigt, welche Pixel das Modell betrachtet, sondern auch, wie diese Pixel miteinander interagieren, um zwei Bilder als ähnlich oder unähnlich erscheinen zu lassen“, erklärt Gregoire Montavon. So fanden sie beispielsweise heraus, dass das CLIP-Modell bestimmte Merkmale wie Text oder Gesichter übermäßig stark berücksichtigt. Zudem konnten sie in einigen Fällen ebenfalls zeigen, dass die Erklärbare KI auch genutzt werden kann, um diese Fehler aus dem Basis-Foundation-Modell zu entfernen.

Unüberwachtes Lernen existierte bereits bevor Foundation-Modelle aufkamen und wurde auf nahezu jede Art von Datensatz angewendet, für den keine Labels verfügbar sind. Klassische Probleme, bei denen unüberwachtes Lernen zum Einsatz kam waren zum Beispiel das Clustern von Daten oder das Erkennen von Anomalien in einem Datensatz – ein häufig genutztes Verfahren der Qualitätssicherung in der industriellen Fertigung. Dabei entscheidet eine KI anhand von Bildern eines industriell gefertigten Produkts, ob ein Herstellungsfehler aufgetreten ist oder nicht. In der Publikation zeigen die BIFOLD-Forscher, dass auch diese Modelle mit Clever-Hans-Strategien arbeiten.

„Das unüberwachte Lernen ist ein zentrales Merkmal der großen Foundation-Modelle. Das wir in diesen Modellen verbreitet Clever-Hans-Effekte nachweisen konnten, ist ein Grund zur Besorgnis. Vor allem weil diese Foundation-Modelle die Basis vieler nachgelagerter spezialisierter KI-Modelle sind und die Clever-Hans-Effekte sich so immer weiterverbreiten. Unsere jüngsten Entwicklungen der Erklärbaren KI zeigen erstmals einen effektiven Weg, um diesen Domino-Effekt in Foundation-Modellen zu erkennen und zu beheben“, erläutert BIFOLD Co-Direktor Klaus-Robert Müller.

Firmen zu diesem Artikel
Verwandte Artikel