Deepfakes sind realistisch anmutende Medieninhalte, die mithilfe generativer Künstlicher Intelligenz erzeugt oder manipuliert werden, um täuschend echte Audio-, Video- und Bildinhalte zu generieren. Wie diese Technologie ihr positives sowie negatives Potenzial entfaltet und wie sich die Gesellschaft vor Desinformation und Manipulation schützen kann, beleuchten Vera Schmitt, Gastwissenschaftlerin der TU Berlin am DFKI Berlin, und Tim Polzehl, DFKI-Forscher im Bereich „Speech and Language Technology“.
„Eine frühe Version von dem, was heute als Deepfake betrachtet wird, kennen wir aus der Sprachsynthese“, sagt Polzehl. „Dort werden mittels KI möglichst echt klingende computergenerierte Stimmen entwickelt, die sich in den letzten fünf Jahren so weit entwickelt haben, dass nun einzelne Stimmen täuschend echt generiert werden können – auch mit wenig Trainingsmaterial.“
Heute ermögliche generative KI auch die Erstellung täuschend echter Bilder, Videos und Audios, die oft schwer von echten Inhalten zu unterscheiden seien. „Mit dem Aufschwung und der öffentlichen Verfügbarmachung der generativen KI wurde das Thema zu einem breiten gesellschaftlichen Phänomen, das technische, ethische und anwendungsbezogene Fragen aufwirft“, sagt Polzehl.
Mensch und KI: Die Schwächen des anderen ausgleichen
Auf diese Fragen wollen Polzehl und Schmitt Antworten finden. Technologie wird dabei eine große Rolle spielen, doch für eine erfolgreiche Identifizierung von manipulativen KI-generierten Medieninhalten braucht es auch gesellschaftliche Lösungen. Ein Umstand, der bereits bei der Definition von Deepfakes eine Herausforderung birgt.
„Für Deepfakes eine einzige exakte Definition zu finden, ist schwierig – es gibt eine Vielzahl von Definitionen“, erklärt Schmitt. „Deepfakes sind im Grunde realistische Medieninhalte, die durch KI und Transformer-basierte Modelle abgeändert, erzeugt oder verfälscht werden. Dabei gilt es allerdings, die eine große Debatte zu beachten, inwiefern Vorsatz, Betrug, Erpressung, Rufschädigung und politische Manipulation eine Rolle spielen, und inwieweit Kunst und Unterhaltung ein Platz eingeräumt werden sollte.“
Das Zusammenspiel aus Mensch und KI ist deshalb notwendig, weil Vorsatz zur Täuschung beispielsweise von KI-Modellen nicht gut erkannt werden kann. Menschen müssen die Evaluationen von KI-Modellen demnach kontrollieren, selbst den Kontext schaffen und andere Möglichkeiten in Betracht ziehen. Menschen erkennen bestimmte Indikatoren für Fälschungen auf Anhieb, die KI erkennt andere Anzeichen.
Ein plakatives Beispiel: Betrachten wir ein realistisch wirkendes Foto eines Menschen, der auf jeder Seite zwei Ohrläppchen hat. Für die meisten Menschen wäre dies ein deutliches Anzeichen für ein Deepfake. Und KI? Die „kommt an diesem Punkt ins Straucheln, denn eventuell sehen alle von der KI erkannten Elemente realistisch aus – und das Ohrläppchen wird mitunter gar nicht erkannt“, sagt Polzehl. „Oder es wird doch erkannt, nur kann die KI das Erkannte nicht in einen sinnvollen Kontext setzen – nämlich: dass wir Menschen nun mal in der Regel pro Ohr nur ein Ohrläppchen haben. Für eine solche Entscheidung bräuchte eine KI zunächst einmal eine deutlich gesteigerte Erkennung der Ohrläppchen, logisches, kritisches und hinterfragendes Denken und Weltwissen über menschliche Anatomie, was derzeit nicht gegeben ist. Wir Menschen haben diese Fähigkeiten und können aus unserem Wissen und dem Kontext ableiten, dass dieses Foto wohl nicht authentisch ist.“
Bei Bilddarstellungen und technischen Feinheiten ist KI allerdings um Längen voraus. Lichtverhältnisse, Schatten und Überlagerungen, Bewegungen, Übergänge und Auffälligkeiten auf Pixelebene – in diesen Bereichen wird es für die menschliche Wahrnehmung schwierig. Bei dieser fast schon forensischen Betrachtung können KI-Tools hervorragend aushelfen, denn hoch spezialisiert funktioniert KI sehr gut. Unregelmäßigkeiten und Auffälligkeiten können dann wiederum als Indikator für mittels generativer KI-Modelle generierte Inhalte interpretiert werden.
Auf den Inhalt kommt es an
Abgesehen von der Identifizierung inhaltlicher Unstimmigkeiten sind Menschen dazu in der Lage, Verhältnismäßigkeiten und Erwartungen in ihre Betrachtung von Medieninhalten einfließen zu lassen. Schmitt: „In der Regel haben wir ein gutes Verständnis von Kontext und Logik. Wenn also in einem Video die Säulen am Brandenburger Tor umkippen, und umstehende Menschen überhaupt nicht auf dieses Ereignis reagieren, dann können wir sehr leicht auf eine unechte Darstellung schließen. Außerdem gäbe es bei solch einem Event eine Vielzahl von unabhängigen Quellen, welche über das Geschehen berichten würden.“
Für die Ermittlung von Deepfakes und manipulativen Inhalten muss also auf eine Analyse des Inhalts gesetzt werden. Vor allem, wenn anhand der Darstellungsform kaum zwischen authentischem und künstlichem Material unterschieden werden kann – wie beispielsweise bei Text. Im Textbereich gibt es inzwischen viele unterschiedliche populäre Transformer-basierte Modelle zur Generierung. Diese synthetischen Texterzeugnisse sind in kleinen Mengen nahezu unmöglich zu erkennen, sowohl für den Menschen als auch für die KI.
„Deshalb“, erklärt Schmitt, „sind für die Erkennung von falschen Informationen die Beantwortung einiger Fragen elementar. Wer hat die Information ursprünglich in den Umlauf gebracht? Welche Fakten, Personen und Events werden dargestellt? Gibt es zu der Thematik bereits bekannte Fakes?“
Auf diese Fragen können spezialisierte KI-Tools bereits verlässliche Antworten liefern. Durch öffentlich verfügbare Anwendungen wie beispielsweise Deep Ware Scanner, Deeptrace oder Whisper lassen sich Informationen validieren. Und auch der News-Polygraph soll künftig Menschen dazu ermächtigen, Informationen leichter zu überprüfen – und manipulative Narrativen aufzudecken.
Polzehl: „Wir haben es mit zwei Begriffen zu tun. Zunächst gibt es Deepfakes, also Audios, Videos, Bilder und Co. mit vermeintlicher Authentizität. Dann gibt es da noch Desinformationen in Narrativen. Letzteres bringt uns in den Bereich des Fact Checking – und zu einem weiteren Aspekt unseres News-Polygraphen.“
Im Journalismus intelligent entscheiden
Eine Grundidee des Fact Checking: Manipulative Narrative wiederholen sich, also können wir in die Vergangenheit schauen – und die gleichen Narrativen womöglich erneut in der Gegenwart entdecken. Bei diesem Prozess kann KI erfolgreich unterstützen. Dann bleibt zu überprüfen, ob das Narrativ bereits widerlegt wurde, ob es dazu bereits Veröffentlichungen gab und zuletzt, wie man diese Information effektiv kommunizieren kann.
Das Team um Polzehl und Schmitt versteht den News-Polygraphen als „KI-Modell zur intelligenten Entscheidungshilfe für Journalisten“. Daher sei es entscheidend, dass die Auswertungen des Modells auf eine so transparente Weise dargestellt werden können, dass diese von Journalisten entsprechend verstanden und eingeordnet werden können. „Es ist außerdem wichtig, die Umstände von der Verbreitung von Mis- und Desinformation zu evaluieren und diese in eine Beurteilung oder Umsetzung wie beispielsweise eines Digital Service Acts mit einfließen zu lassen“, sagt Schmitt. „Schließlich können gefälschte Inhalte auch unwissend und unabsichtlich geteilt werden, ohne jedwede Intention dahinter, damit zu täuschen.“
Es bräuchte also ein Prozedere, durch das KI-generiertes Material nicht nur gekennzeichnet wird, sondern neben Authentizität auch Intention und Wirkung bemessen werden können. Denn die Tatsache, dass KI synthetische Medien wie Stimmen, Videos und Bilder generieren kann, sei zunächst positiv. Allerdings können Menschen mit denselben Inhalten persönliche Kampagnen fahren und diese Medien missbrauchen.
„Sich gegen Desinformationen zu wappnen, heißt deshalb, öfter und kritischer hinterfragen, wem und vor allem warum man bestimmten Behauptungen Glauben schenkt. Dabei spielen Intention und Quellen einer Behauptung eine immer größere Rolle“, betont Polzehl. „Das gilt auch für uns Wissenschaftler. Wenn beispielsweise faktenbasiert kommuniziert wird, werden in der Regel auch Quellen bereitgestellt. Am Ende müssen aber auch wir Wissenschaftler unser Vertrauen ein Stück weit verschenken – auch wenn die Wissenschaft im Anschluss daran zum größten Teil auf Evidenz basiert.“
Absolute Gewissheit gibt es nicht
„Es wird nie eine KI geben, die alles erkennen kann“, verdeutlicht Schmitt. Darüber hinaus herrsche zwischen generativen Modellen und Erkennungstechnologien ein immenses Ungleichgewicht, das es durch einen Zuwachs an Ressourcen und Aufmerksamkeit für dieses Thema auszugleichen gelte. „Denn Deepfakes haben in der heutigen Welt eine schier unendliche Reichweite – eine Skalierbarkeit, welcher durch Aufklärung, Entlastung und Befähigung begegnet werden muss.“
Doch selbst wenn Informationen und ein kritischer Umgang in Kombination mit KI-Tools perspektivisch dazu befähigen, Deepfakes verlässlicher zu erkennen – entschärft sind sie dadurch nicht. Die Gefahren liegen hinter der künstlich erstellten Fassade. Polzehl: „Selbst die Kennzeichnung von KI-generiertem Material schützt nicht zwingend vor Beeinflussung durch diese Inhalte! Verschiedene Studien zur Kennzeichnung lieferten die Erkenntnis, dass sich Menschen dennoch beeinflussen lassen. Durch Erkennen ist das Thema also nicht vom Tisch.“
Es sei sein persönlicher Wunsch, sagt Polzehl, „dass wir als Gesellschaft die Bedeutung von Desinformation größer einsortieren, sodass wir besser darauf vorbereitet sind. Dann kann eine Kennzeichnung funktionieren, das Abfangen von schädlichen Narrativen und Inhalten gelingen und ein besseres Monitoring vollzogen werden. All das soll simultan zu einer Entlastung aller Menschen geschehen, welche konsequent mit einer wachsenden Zahl von Fälschungen konfrontiert werden. Und dedizierte Akteure dazu befähigen, dem wachsenden Output gerecht zu werden.“