Eignen sich KI-Chatbots fürs Krankenhaus?

In einem zweiten Teil der Studie wurden KI-Diagnosen zu einer Teilmenge aus dem Datensatz mit Diagnosen von vier Ärzten verglichen. Während diese bei 89 Prozent der Diagnosen richtig lagen, kam das beste Large Language Model auf gerade einmal 73 Prozent.

Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.

Ein weiteres Problem, das die Programme für den Einsatz im Alltag disqualifiziert, ist ein Mangel an Robustheit: Welche Diagnose ein Large Language Modell stellte, hing unter anderem davon ab, in welcher Reihenfolge es die Informationen erhielt. Auch linguistische Feinheiten beeinflussten das Ergebnis – beispielsweise ob das Programm um eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ gebeten wurde. Im Klinikalltag sind die Begriffe in der Regel austauschbar.

ChatGPT nicht getestet

Das Team hat explizit nicht die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google getestet. Dafür gibt es im Wesentlichen zwei Gründe. Zum einen untersagt der Anbieter der Krankenhausdaten aus Datenschutzgründen, die Daten mit diesen Modellen zur verarbeiten. Zum anderen raten Experten nachdrücklich, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden.

„Nur mit Open-Source-Software haben Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patientinnen und Patienten zu gewährleisten. Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welche Daten sie trainiert wurden. Sonst könnte es sein, dass wir für die Bewertung genau die Fragen und Antworten verwenden, mit denen sie trainiert wurden. Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert”, sagt Paul Hager. “Es ist auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.”

Schnelle Fortschritte

Die Entwicklung in dieser Technologie verläuft sehr schnell. „Es ist gut möglich, dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, sagt Prof. Daniel Rückert. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollen.“

Rückert sieht Potenzial in der Technologie: „Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen“, sagt der Medizin-KI-Experte.

Forscher verwandeln Pflanzenabfälle in Hightech-Material

Robotische Hose als Gehhilfe

Verschmolzene Moleküle machen Lithium-Ionen-Batterien sicherer

Post-Quantum-Kryptographie: Security beim Quantencomputing

Diagnose-Fähigkeiten von Large Language Models getestet Eignen sich KI-Chatbots fürs Krankenhaus?

ChatGPT nicht getestet

Schnelle Fortschritte

Technische Universität München

Optische Informationsverarbeitung verbessern

Effizientere Bewegungen für Roboter ermöglichen

Polymermembran für grüne Energie und Ressourcengewinnung

Autonomes Fahren mithilfe von Künstlicher Intelligenz vorantreiben

Anwendungen in Hochgeschwindigkeit steuern

Vorhersagekraft der Quantentechnologie erhöhen

Forscher verwandeln Pflanzenabfälle in Hightech-Material

Flugzeuge auf das Wasserstoffzeitalter vorbereiten

Generative KI: Der Schlüssel zur individuellen Produktentwicklung

Werkzeuge aus dem 3D-Drucker