Sensible Unternehmensdaten für Maschinelles Lernen nutzen?

Wie können Wirtschaftsunternehmen auch sensible Daten nutzen, um Modelle der Künstlichen Intelligenz zu trainieren? Eine Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR) will dies durch den Ansatz des Föderalen Lernens erreichen.

Bei diesem Verfahren bleiben die Trainingsdaten an ihrem jeweiligen Speicherort und werden nicht, wie sonst üblich, an einem zentralen Ort zusammengeführt. Das Vorhaben ColDa (Collaborative Machine Learning for Data Value Creation) unter Leitung des Oldenburger Wirtschaftsinformatikers Prof. Dr. Jorge Marx Gómez vom Department für Informatik und Dr. Michael Karl vom DLR hat eine Laufzeit von drei Jahren und wird durch das DLR mit rund 450.000 Euro gefördert.

Geschäftsgeheimnisse verwenden, ohne sie weiterzugeben

Gute Trainingsdaten sind für maschinelles Lernen, ein Verfahren der Künstlichen Intelligenz, von grundlegender Bedeutung. Mit je mehr und vielfältigeren Daten diese Programme gefüttert werden, desto besser können sie später etwa Muster in Bildern oder Zusammenhänge in Texten erkennen. Auch Unternehmen nutzen maschinelles Lernen für verschiedene Aufgaben. „Dabei stehen sie häufig vor dem Problem, dass die zum Training der Modelle benötigten Daten unter den Datenschutz fallen oder auch Geschäftsgeheimnisse enthalten. Es ist daher oft nicht ohne weiteres möglich, sie zentral etwa in einem Rechenzentrum zu speichern, wie es beim maschinellen Lernen sonst üblich ist“, erläutert Prof. Dr. Frank Köster, Gründungsdirektor des DLR-Instituts für KI-Sicherheit.

Dieses Problem will das Team um Marx Gómez durch das sogenannte föderale Lernen lösen. Die Daten bleiben zum Training des Modells an ihrem lokalen Speicherort und müssen nicht weitergegeben werden. „Auf diese Weise können sensible Unternehmensdaten für maschinelles Lernen genutzt werden, ohne ihre Schutzwürdigkeit zu gefährden“, erläutert Projektleiter Marx-Gómez. Das Team konzentriert sich auf die Themen Datenintegration und natürliche Sprachverarbeitung (auf Englisch: Natural Language Processing, abgekürzt NLP).

Unter Datenintegration verstehen Fachleute das Zusammenführen verschiedener Datenansammlungen in eine einheitliche Struktur. „Der Prozess erfordert nach wie vor oft einen hohen manuellen Aufwand, der durch den Einsatz von KI drastisch reduziert werden kann“, erläutert Projektmitarbeiter Jan-Philipp Awick. Dabei stehen Unternehmen jedoch vor einem Dilemma: Für das Training der KI werden in der Regel mehr Daten benötigt, als ein Unternehmen alleine bereitstellen könnte. Daher müssten mehrere Organisationen ihre Daten austauschen – was aufgrund der Datensensibilität in der Praxis häufig jedoch nicht möglich ist. Das Oldenburger Team untersucht deshalb, wie sich hierbei föderales Lernen einsetzen lässt. Die Forscher wollen zunächst ein Modell konzipieren und anschließend einen Prototyp entwickeln und evaluieren.

Einsatz natürlicher Sprachverarbeitung

Das zweite Thema des Projekts ist der Einsatz natürlicher Sprachverarbeitung innerhalb von Unternehmen. Diese Technologie erlaubt es Computern, menschliche Sprache zu interpretieren und zu erzeugen. Sie bildet die Grundlage für Chat-Bots wie beispielsweise das derzeit vieldiskutierte Programm ChatGPT.

„Die für das Training solcher Bots benötigten Textdaten sind meist allerdings nur eingeschränkt zugänglich“, erklärt der Oldenburger Wirtschaftsinformatiker Gerrit Schumann. Schon innerhalb eines Unternehmens könnten Textdaten wie E-Mails, interne Berichte oder Lieferscheine nicht ohne Weiteres zwischen unterschiedlichen Abteilungen oder Zweigstellen ausgetauscht werden. Auch hier will das Forschungsteam das föderale Lernen erproben – mit dem Ziel, dem Sprachmodell etwa alle lokal verwendeten Vokabeln, Satzstrukturen oder Zusammenhänge beizubringen. Anschließend evaluieren die Forscher den Erfolg ihrer Methode in einem globalen Modell.

Wählen Sie den A&D-Cover-Winner 2024!

Flexible Middleware ermöglicht die Integration älterer Steuerungen

Tradition trifft neueste Technik

Fahrt in die Produktion bringen

Künstliche Intelligenz trainieren Sensible Unternehmensdaten für Maschinelles Lernen nutzen?

Geschäftsgeheimnisse verwenden, ohne sie weiterzugeben

Einsatz natürlicher Sprachverarbeitung

Carl von Ossietzky Universität Oldenburg

Wasserstoff: Neuer Markt, neue Chancen – wie datengetriebener Vertrieb dabei unterstützt

Autonomes Fahren mithilfe von Künstlicher Intelligenz vorantreiben

Die 33. SPS – Smart Production Solutions endet erfolgreich

Anwendungen in Hochgeschwindigkeit steuern

Energieverbrauch senken mit Gleichstrom

Neuer Motion-Controller für vier verschiedene Motor-Technologien

Vollelektronischer e-Starter mit Halbleitertechnik

Erster kommerzieller Photonik-Prozessor kommt auf den Markt

Neuer Mess- und Prüfschlüssel für die Qualitätssicherung

Verantwortungsvolle KI: Workday verzeichnet globales Wachstum