Grundsätzlich gilt: Der Schutz privater Daten ist für eine positive Erfahrung und Akzeptanz von IT-gestützten Dienstleistungen und Anwendungen von größter Bedeutung, insbesondere im Gesundheitsbereich, in dem mit besonders sensiblen Daten gearbeitet wird. Doch sogar die gängigen Anonymisierungstechniken bieten nicht immer vollständigen Schutz, da sie anfällig für eine Re-Identifizierung der Nutzenden sein können. Abhilfe schafft die Erstellung sogenannter synthetischer Daten, die aktuell die Anonymisierung schrittweise ersetzen.
KI und Datenschutz: Rauschen macht Anwender anonym
„Synthetische Daten sind Daten, die von Computern synthetisch generiert werden, basierend auf einem realen Datensatz, zum Beispiel Text- oder Bilddaten. Die realen Daten werden als Trainingsdaten für ein maschinelles Lernverfahren verwendet, das die Verteilung der Daten lernt und darauf basierend ähnliche Beispiele generiert“, erklärt Prof. Voigt-Antons. Das geschieht zum Beispiel mit sogenannten Generative Adversarial Networks (GANs).
Die meisten neuen Versionen dieser Netzwerke zielen darauf ab, die Qualität der erzeugten Daten zu verbessern und die Privatsphäre der echten Trainingsdaten zu schützen. „Neue GANs zur Wahrung der Privatsphäre integrieren differentielle Datenschutzstandards“, sagt Navid Ashrafi. „Das bedeutet, dass ein Rauschen zu den Informationen hinzugefügt wird, wodurch die Wiedererkennung von Menschen in den echten Daten erschwert wird."
Medizinischer Bereich wird profitieren
Auch wenn die Entwicklung und das Wachstum dieser KI-Netzwerke von den Fortschritten der Künstlichen Intelligenz im Allgemeinen abhängt, ist sich Prof. Voigt-Antons sicher, dass diese Verfahren mehr und mehr in Bereichen Einzug halten werden, in denen die Wahrung der Privatsphäre besonders wichtig ist. „Der gesamte medizinische Bereich wird daher ein besonders prominentes Anwendungsgebiet werden“, so der HSHL-Professor. Für seine Arbeit hat Navid Ashrafi den „Diversity and Societal Impact“-Award der QoMEX erhalten.