Dank künstlicher Intelligenz kann jeder die Stimme einer anderen Person ziemlich perfekt imitieren und sie Sätze nach seinem Willen sprechen lassen. Das nennt man ein Deep-Fake-Audio. So etwas funktioniert auch mit Videos. Man benötigt nur die geeigneten Programme und genügend Video- oder Audio-Originalmaterial. Je preiswerter die Programme werden, desto interessanter werden sie auch für Kriminelle.
Von Open Source zu virtuellen Influencern und Betrugsfällen
Die ersten Deep-Fake-Videos wurden im Jahr 2017 auf der Socialmedia-Plattform Reddit gezeigt. Dort präsentierte ein Nutzer verfälschte Videosequenzen berühmter Schauspielerinnen. Den von ihm selbst programmierten Algorithmus stellte er als Open-Source-Code zur Verfügung. Das ermöglichte es Anderen, mit dieser Anleitung eigene Deep Fakes zu erstellen.
Seitdem hat sich die Technik enorm weiterentwickelt. Heute werben virtuelle Influencer, die auf dem Bildschirm wie echte Menschen agieren, im Internet für Marken und generieren Follower. Und die Band ABBA ging bei ihrer virtuellen Wiedervereinigung nicht mehr persönlich, sondern nur noch mit ihren Avataren auf Tournee. Doch diese KI-Technik beflügelt nicht nur die Unterhaltungsindustrie, sondern sie ruft auch Betrüger auf den Plan.
Avatar berät zu Fake-Reiseangeboten
Zwei Beispiele für den Betrug mit Audio- und Video-Deep-Fakes wurden in letzter Zeit publik. Der erste Fall kam aus der Reisebranche: Kriminelle hatten eine Internet-Seite der Fake-Firma „Kofi Reisen“ online gestellt. Zur Kontaktanbahnung schickten die Betrüger den Kunden unaufgeforderte WhatsApp, in denen dann auf das Angebot preiswerter Reisen verwiesen wurde.
Auf der Startseite beriet eine sympathisch aussehende junge Frau interessierte Kundinnen und Kunden im Videochat zu den Schnäppchenangeboten. Sie war ein täuschend echter Avatar, der von den Betrügern in Echtzeit wie eine Handpuppe gesteuert wurde. So verschleierten die Täter ihre wahre Identität. Die Nutzungsrechte für den Avatar „Emma“ hatten die Kriminellen für wenig Geld bei einem britischen Start-Up eingekauft.
Solche Avatare werden normalerweise dafür eingesetzt, um etwa Schulungsprogramme oder Erklärvideos interessanter zu gestalten. Die digitalen Zwillinge basieren auf dem Aussehen echter Menschen und sprechen zahlreich Sprachen. Die betrügerische Reisewebsite ist längst offline. Aber viele Menschen haben nicht zuletzt wegen des sympathischen Avatars Emma und ihrer „persönlichen Beratung“ zu den angeblichen Schnäppchen-Reisen Geld an „Kofi Reisen“ überwiesen, für das sie nie eine Gegenleistung erhalten.
Enkeltrick-Betrug in der Ära der KI
Zum zweiten Anwendungsfall sind offensichtlich noch keine Opfer bekannt, aber das dürfte nur eine Frage der Zeit sein. Er betrifft den Enkeltrick: Beim herkömmlichen Enkeltrick rufen Kriminelle bei älteren Menschen an und geben sich als ein Enkelkind aus, das in einer Notlage ist und dringend Geld benötigt. Bislang müssen die Täter darauf hoffen, dass die Opfer die Stimmen ihrer Enkel nicht besonders genau in Erinnerung haben.
„Bei KI-basierten Stimmen fällt es dem Bürger sehr, sehr schwer, diesen Unterschied überhaupt noch zu erkennen“, sagte Hans Hülsbeck vom LKA NRW kürzlich bei „WDR Aktuell“: „Das kann also ganz einfach sein im Bereich des Enkeltricks, den wir kennen, dass jetzt die Stimme der Enkelin oder des Enkels KI-basiert nachgemacht wird.“ Die Voraussetzung ist natürlich, dass die Betrüger über Audio-Aufzeichnungen von der Stimme des Enkels oder der Enkelin verfügen, mit denen sie die KI füttern können.
Mit der Fake-Stimme die Hausbank ausgetrickst
Die passenden Programme, um eine Stimme täuschend echt nachzumachen, sind über das Internet inzwischen preiswert erhältlich. Und sie führen zum Erfolg. Die „Wall Street Journal“-Reporterin Joanna Stern probierte zunächst aus, ob ihre Kollegen und ihre Familie auf ihre Fake-Stimme hereinfallen würden.
Ihr Fazit: Je kürzer die Fake-Stimme zu hören war, desto eher gelang es ihr, die Menschen aus ihrem Umfeld zu täuschen. Mulmig wurde ihr, als es ihr gelang, mit ihrer eigenen Deep-Fake-Stimme die automatische Stimmenerkennung bei der Kreditkartenverifizierung ihrer Bank auszutricksen.
Sie verband die Reporterin direkt mit einer Service-Mitarbeiterin, ohne weitere Fragen zu stellen. Audio-Deepfakes sind also aktuell noch eine größere Bedrohung als Video-Deepfakes wie im Fall des fiktiven Reiseunternehmens „Kofi Reisen“. Denn die Video-Deep Fakes sind noch nicht perfekt. Eine unnatürliche Mimik oder ein leerer Blick können ein Hinweis darauf sein, dass es sich um ein Fake-Video handelt.
Besonders bei den Übergängen wie zum Beispiel zwischen Gesicht und Haaren oder Gesicht und Hals sind Deep Fakes heute noch oftmals unscharf. Außerdem blinzeln Menschen ganz automatisch alle paar Sekunden. Fällt dies weg, kann es sich um ein Deep-Fake-Video handeln.