Wo KI einen echten Unterschied macht
Der grosse Traum? Ein Chatbot, der den Menschen in Afrika in ihrer Sprache medizinische Hilfe leistet. Sei es einer jungen Mutter, auf einer Krankenstation, einem Lehrer: Die künstliche Intelligenz (KI) würde, aufgrund des aktuell verfügbaren medizinischen Wissens, Ratschläge erteilen. So stellt es sich Professorin Mary-Anne Hartley, Leiterin des «Laboratory for intelligent Global Health and Humanitarian Response Technologies» (LiGHT) an der EPFL, vor. Einen grossen Schritt in diese Richtung machte die Ärztin mit südafrikanischen Wurzeln zusammen mit KI-Spezialisierten der EPFL schon. Ende 2023 präsentierte das Team das Sprachmodell MEDITRON-70B, das recht gut ist, wenn es um Prüfungsfragen aus dem Medizinstudium geht. Aber den wahren Test muss es in der Praxis bestehen.
KI für das Gesundheitswesen, offen für alle
Die KI basiert auf den Llama-Modellen, entwickelt vom Facebook-Mutterkonzern Meta. Dieses Large Language Model (LLM) ist ähnlich leistungsfähig wie GPT von OpenAI oder Gemini von Google, besitzt dabei aber zwei entscheidenden Vorteile: Es ist Open Source und klein genug für Krankenhäuser und ressourcenschwache Einrichtungen. Das Meditron-Team unter der Ko-Leitung von Professor Antoine Bosselut, Leiter der Gruppe Natural Language Processing, arbeitet schon seit längerem an LLMs für medizinische Anwendungen. Auch hier ist mit den Erfolgen der generativen KI seit 2022 einiges in Bewegung gekommen.
Die Herausforderung der medizinischen KI
KI und Medizin? Die Kombination mag erstaunen. Hierzulande ist der medizinische Kontext so etwas wie das «Piece de Résistance» in Bezug auf KI. Was, wenn sie danebenliegt? Im Fachjargon nennt man das: Die Sprachmodelle «halluzinieren». Wenn sie etwas nicht wissen, fabulieren sie, lassen es aber sehr plausibel klingen. So stellen wir uns medizinische Expertise lieber nicht vor.
Hartley und Bosselut betonen beide, dass das auch Menschen passiert, dass auch wir Unsicherheiten überspielen und dass – natürlich – auch menschliche Expertinnen und Experten danebenliegen können. Demgegenüber steht der grosse potenzielle Nutzen, wenn solche KI auch fernab gut ausgebauter mediznischer Versorgung lebenswichtige Informationen liefern kann. Vertrauen in KI aufzubauen, funktioniert im Grunde genauso wie bei jeder anderen medizinischen Intervention: Jedes vielversprechende Mittel muss seine Wirksamkeit erst in Studien zeigen, und gute Werte im Labor bedeuten noch lange keinen echten Erfolg im praktischen medizinischen Alltag.
Entscheidender als «Halluzinationen» seien ohnehin «Kontaminationen», gibt Hartley zu bedenken. Das sind Verzerrungen in den Daten, mit denen das System arbeitet. «Nicht einmal 3 % der Studien in der grössten Medizindatenbank Pubmed repräsentieren Afrika.» Es kommt zu Ungenauigkeiten und Ungleichheiten. «Wenn wir es nicht schaffen, den nicht westlichen medizinischen Kontext zu repräsentieren, werden wir für Afrika kein nützliches System bauen können.» Und weil keine Zeit sei, auf «perfekte Daten» zu warten, müsse man sich mit Iterationen behelfen und die Systeme allmählich dahin bringen, das zu tun, was sie sollen.
Gestaltung von KI mit menschlichem Input
Bis vor kurzem war das Chatten mit GPT eine eher anarchische Angelegenheit, die Sprach-Outputs konnten auch in irritierende Richtungen gehen. Dass GPT unterdessen sehr gesittete Konversationen führt, liegt zum Teil an einer zusätzlichen Schleife im Trainingsprozess, dem sogenannten «Reinforcement learning from human feedback» (RLHF). Dabei bringen Menschen dem System gewissermassen Manieren bei, indem sie Antworten bewerten. Etwas ähnliches tun die EPFL-Forschenden bei ihrem Sprachmodell, Hartley nennt es «Nudging».
Ärzte beeinflussen die medizinischen Fähigkeiten von KI
Zahlreiche Ärzte auf der ganzen Welt, von Lausanne bis Bangkok und auch auf dem afrikanischen Kontinent, testen die KI und ihren Antworten. «Ärzte lieben es. Es ist wie ein Spiel, das oft zwischen Kollegen als Teil eines Mentorenprozesses gespielt wird: Kann man den Anfänger in die Irre führen, kann man sein Nichtwissen blossstellen und ihm dann etwas beibringen?» So wird die Maschine immer besser, vor allem, was die speziellen medizinischen Bedingungen fernab von typischen Prüfungsfragen an westlichen Unis angeht.
Hartley wie Bosselut betonen, dass man so ein Modell wohl nur im akademischen Rahmen entwickeln kann, und «vielleicht auch nur an der EPFL», so Hartley, dank der entsprechenden technischen Ressourcen und des Know-hows, auch in Kollaboration mit hervorragenden und innovativen Unispitälern in der Umgebung, wie dem CHUV. Bosselut dachte bei den ersten auf Medizin spezialisierten Sprachmodellen vor allem an Spitäler in unseren Breitengraden oder an Pharmafirmen – kurz: «an Menschen, die viel Geld für so etwas bezahlen können». Erst mit Hartley kam der Shift hin zum «low resource context», hin zu «Nutzern, die mir sehr viel mehr am Herzen liegen». Und Hartley ergänzt: «Wir wollten nicht einfach ein Modell bauen und tolle Resultate publizieren. Wir wollten darüber hinaus in die Praxis gehen. Das ist die härteste Evidenz, die man bekommen kann.» Das EPFL-Team wird nun eine gross angelegte klinische Studie in mehreren afrikanischen Ländern durchführen, um diese Modelle zu einer zuverlässigen Wirkung in der Praxis zu führen.