Wie kann man sich auf etwas vorbereiten, ohne zu wissen, was es sein wird? Ein Forschungsteam der TU München und des Berliner Fritz-Haber-Institutes hat sich dieser geradezu philosophischen Frage im Kontext des maschinellen Lernens gewidmet.
Problemstellung
Lernen ist eigentlich nichts anderes als aus gemachten Erfahrungen neue Schlüsse zu ziehen. Um mit einer neuen Situation in dieser Weise umgehen zu können, muss man vorher halbwegs ähnliche Situationen erlebt haben.
Beim maschinellen Lernen bedeutet dies, dass man dem Lernalgorithmus entsprechend viele Daten zur Verfügung stellt. Was aber, wenn es so unendlich viele Möglichkeiten gibt, dass es schlicht unmöglich ist, für alles ähnliche Daten zu generieren? Genau dieses Problem ergibt sich sehr oft bei der schier endlosen Vielzahl möglicher Moleküle.
Moleküle für tragbare Solarzellen oder zusammenrollbare Bildschirme
Organische Halbleiter bilden die Grundlage für so zukunftsträchtige Anwendungen wie tragbare Solarzellen oder zusammenrollbare Bildschirme. Hierfür müssen aber noch bessere organische Moleküle gefunden werden, aus denen sich diese Materialien zusammensetzen.
Für solche Suchaufgaben werden zunehmend Verfahren des maschinellen Lernens eingesetzt, die entweder mit gerechneten oder gemessenen Daten trainiert werden.
Allerdings wird die Anzahl grundsätzlich möglicher organischer Moleküle auf ungefähr 1033 geschätzt – eine so große Zahl, dass es unmöglich wäre, einfach so Daten zu erzeugen, die diese riesige Vielfalt halbwegs abdecken. Zumal die allermeisten Möglichkeiten komplett unbrauchbar für organische Halbleiter sind und es sprichwörtlich gilt, die Nadel im Heuhaufen zu finden.
Aktiver Lernalgorithmus entscheidet selbst, welche Daten er braucht
Das Team um Prof. Karsten Reuter, Direktor der Abteilung Theorie am Fritz-Haber-Institut und Dr. Harald Oberhofer, Heisenberg-Stipendiat am Lehrstuhl für Theoretische Chemie der TU München, geht dieses Problem mit sogenanntem aktiven Lernen an. Anstatt mit vorhandenen Daten zu lernen, bestimmt dieser Lernalgorithmus sukzessive selbst, welche Daten er braucht.
Vorab berechnen die Wissenschaftler mit aufwändigen Computersimulationen für eine Anzahl kleinerer Moleküle elektrische Leitfähigkeitsdaten, die eine Eignung in organischen Halbleitern und Solarzellen andeuten.
Arbeitsweise des Algorithmus
Basierend auf diesen Daten prüft der Algorithmus, ob kleinere Modifikationen der Moleküle entweder zu sehr guten Eigenschaften führen oder ob er sich unsicher über diese Eigenschaften ist, weil ihm ähnliche Daten fehlen. In beiden Fällen fordert er automatisch neue Simulationen an, verbessert sich anhand der so generierten Daten, überlegt sich neue Moleküle – und so geht dies kontinuierlich weiter.
In ihrer Arbeit zeigen die Wissenschaftler, dass dieser Ansatz deutlich effizienter ist als alternative Suchalgorithmen und auf diese Weise neue vielversprechende Moleküle gefunden werden können, während sich der Algorithmus immer weiter durch die Weiten des molekularen Raums bewegt. Jede Woche schlägt er neue Moleküle vor, die die nächste Generation von Solarzellen einläuten könnten, und er wird immer besser.