RDF-Wissensgraphen Benchmark evaluiert Large Language Models automatisch

In Bezug auf RDF-Wissensgraphen hat das Team drei Sprachmodelle getestet.

Bild: publish-industry, DALL·E
24.04.2024

Das Benchmarksystem LLM-KG-Bench überprüft automatisch, wie gut Large Language Models Aufgaben rund um RDF-Wissensgraphen erfüllen. Es ist das erste System für diesen Anwendungsfall. Es kann Unternehmen dabei helfen, Chatbots zuverlässig einzusetzen.

Ein Forschungsteam des Instituts für Angewandte Informatik in Leipzig hat ein Benchmarksystem entwickelt, um zu überprüfen, wie gut große Sprachmodelle (englisch Large Language Model – LLM) Aufgaben in Bezug auf RDF-Wissensgraphen erfüllen.

Der LLM-KG-Bench ist das erste System für diesen Anwendungsbereich. Es evaluiert vorgegebene Aufgaben automatisiert. Dadurch ist es geeignet langfristig zu überprüfen, wie Sprachmodelle in RDF-Wissensgraph-spezifischen Aufgaben abschneiden. Das kann den sicheren Einsatz von Chatbots unterstützen, die auf LLMs basieren.

In Bezug auf RDF-Wissensgraphen hat das Team drei Sprachmodelle getestet: Claude-1.3 von Anthropic sowie ChatGPT-3.5 und ChatGPT-4 von OpenAI. Weitere Modelle lassen sich bei Bedarf ergänzen. Die Modelle sollten je drei Aufgaben lösen: Fehlerbehebung in vorhandenen kleinen Wissensgraphen; Extraktion von Datenblättern; Erstellung von Datensätzen. Alle drei Aufgaben gehören zur Entwicklung von Wissensgraphen.

Noch deutlicher Verbesserungsbedarf vorhanden

Im Ergebnis hat sich gezeigt, dass die getesteten LLMs noch deutlichen Verbesserungsbedarf für eine zuverlässige Verwendung haben, wie Lars-Peter Meyer vom Institut für Angewandte Informatik (InfAI) einordnet: „Wir sind noch nicht an dem Punkt, Wissensgraph-spezifische Aufgaben ungeprüft an Sprachmodelle abzugeben. Zurzeit liefern sie noch nicht zuverlässig richtige Ergebnisse. Aber wenn sie so weit sind, bekommen wir es durch den LLM-KG-Bench mit.” Der LLM-KG-Bench ist erstmals im Poster-Track der Semantics-Konferenz 2023 vorgestellt worden.

Mit dem RDF-Standard werden Daten durch ihre Beziehungen zueinander beschrieben. Dadurch sind sie für KI-Systeme besonders gut lesbar.

Bildergalerie

  • Basic LLM-KG-Bench framework architecture: Der LLM-KG-Bench ist das erste System für diesen Anwendungsbereich.

    Basic LLM-KG-Bench framework architecture: Der LLM-KG-Bench ist das erste System für diesen Anwendungsbereich.

    Bild: Institut für Angewandte Informatik

Firmen zu diesem Artikel
Verwandte Artikel