In ihrem Paper „From attribution maps to human-understandable explanations through Concept Relevance Propagation“ stellen die Forschenden mit Concept Relevance Propagation (CRP) eine neue Methode zur Erklärbarkeit von KI vor, welche individuelle Entscheidungen der KI in Form von menschlich verständlichen Konzepten erklären kann.
Mysterium der Black-Box gelöst
KI-Systeme sind weitgehend Black-Boxes: Wie eine KI zu einer bestimmten Entscheidung kommt, ist für den Menschen meist nicht nachvollziehbar. CRP ist eine hochmoderne Erklärungsmethode für tiefe neuronale Netzwerke, die bestehende Erklärungsmodelle ergänzt und vertieft.
Dabei zeigt CRP nicht nur, welche der eingegebenen Merkmale für die getroffene Entscheidung relevant sind, sondern deckt auch die verwendeten Konzepte auf, zeigt wo diese in der Eingabe repräsentiert sind und welche Teile des neuronalen Netzwerks dafür verantwortlich sind. Damit ist CRP ist in der Lage, individuelle Entscheidungen einer KI anhand von Konzepten zu erklären, die für den Menschen verständlich sind. Im Ergebnis werden ganz neue Maßstäbe bei der Bewertung von und der Interaktion mit KI gesetzt.
Die neue Art der Erklärbarkeit nimmt erstmals den gesamten Vorhersageprozess einer KI – vom Input bis zum Output – in den Blick. In den vergangenen Jahren hat das Forschungsteam zum Beispiel bei der Bilderkennung verschiedene Methoden entwickelt, um mithilfe sogenannter Heatmaps zu erklären, wie KI-Algorithmen zu ihren Entscheidungen gelangen. Die Heatmaps markieren spezifische Bereiche in einem Bild, die für die getroffene Entscheidung besonders relevant sind.
Diese Methode wurde unter dem Namen Layer-wise Relevance Propagation (LRP) bekannt. Die Bedeutung dieser Art von Erklärbarkeit ist von enormer Wichtigkeit, da sie nachvollziehbar macht, ob eine KI tatsächlich auf einer fundierten Grundlage Entscheidungen trifft oder ob sie lediglich Shortcut-Strategien erlernt hat und somit schummelt.
Auf Basis von Bilderkennung
Die neue CRP-Methode baut auf Layer-wise Relevance Propagation auf. „Die Bilderkennung durch KI ist dafür ein gutes Beispiel“, so Prof. Wojciech Samek, Leiter der Abteilung „Künstliche Intelligenz“ am Fraunhofer HHI, Professor für Maschinelles Lernen und Kommunikation an der TU Berlin sowie BIFOLD Fellow. „Auf der Input-Ebene kennzeichnet CRP, welche Pixel innerhalb eines Bildes für den KI-Entscheidungsprozess besonders relevant sind. Das ist ein wichtiger Schritt, um die Entscheidungen einer KI nachzuvollziehen, erklärt aber nicht das Konzept hinter der Entscheidung, warum die KI genau diese Pixel berücksichtigt.“
Zum Vergleich: Wenn ein Mensch eine schwarz-weiß gestreifte Oberfläche sieht, erkennt er nicht automatisch ein Zebra. Dazu benötigt er außerdem noch Informationen wie vier Beine, Hufe, Schwanz, et cetera. Letztlich kombiniert er die Information der Pixel (schwarz/weiß) mit dem Konzept Tier.
„CRP überträgt die Erklärung vom Eingangsraum, in dem sich das Bild mit all seinen Pixeln befindet, in den semantisch angereicherten Konzeptraum, der von höheren Schichten des neuronalen Netzwerkes gebildet wird“, erläutert Dr. Sebastian Lapuschkin, Leiter der Forschungsgruppe „Erklärbare Künstliche Intelligenz“ am Fraunhofer HHI, die neue Methode. „CRP ist die nächste Stufe der Erklärbarkeit der KI und bietet ganz neue Möglichkeiten im Hinblick auf die Untersuchung, Prüfung und Verbesserung der Funktionsweise von KI-Modellen. Wir sind schon sehr gespannt darauf, unsere neue Methode auf große Sprachmodelle wie ChatGPT anzuwenden.“