Alles rein – alles raus: ein neues modulares KI-Modell
Wir alle haben schon von Large Language Models (LLMs) gehört – massive Deep-Learning-Modelle, die auf riesigen Textmengen trainiert werden und die Grundlage für Chatbots wie ChatGPT von OpenAI bilden. Multimodale Modelle (MMs) der nächsten Generation können nicht nur aus Text, sondern auch aus Video, Bild und Ton lernen.
Die Erstellung von MM-Modellen in kleinerem Massstab birgt erhebliche Herausforderungen, darunter das Problem der Robustheit gegenüber nicht zufällig fehlenden Informationen. Dabei handelt es sich um Informationen, die einem Modell nicht zur Verfügung stehen, oft aufgrund einer verzerrten Verfügbarkeit von Ressourcen. Es muss daher sichergestellt werden, dass das Modell bei seinen Vorhersagen nicht die Muster der fehlenden Informationen lernt.
MultiModN dreht dies um
Als Antwort auf dieses Problem haben Forschende der Labors für maschinelles Lernen für die Bildung (ML4ED) und für maschinelles Lernen und Optimierung (MLO) der EPFL-Fakultät für Informatik und Kommunikation das genaue Gegenteil eines Large Language Model entwickelt und getestet.
Unter der Leitung von Professor Mary-Anne Hartley, Leiterin des Labors für intelligente globale Gesundheitstechnologien, das gemeinsam vom MLO und der Yale School of Medicine betrieben wird, und Professor Tanja Käser, Leiterin von ML4ED, wurde MultiModN, ein einzigartiges modulares multimodales Modell, kürzlich auf der Konferenz NeurIPS2023 vorgestellt.
Wie bestehende multimodale Modelle kann MultiModN aus Text, Bild, Video und Ton lernen. Anders als bestehende MMs besteht es aus einer beliebigen Anzahl kleinerer, in sich geschlossener und eingabespezifischer Module, die je nach den verfügbaren Informationen ausgewählt und dann in einer Sequenz aus einer beliebigen Anzahl, Kombination oder Art von Eingaben aneinandergereiht werden können. Das Programm kann dann eine beliebige Anzahl oder Kombination von Vorhersagen ausgeben.
«Wir haben MultiModN anhand von zehn realen Aufgaben evaluiert, darunter medizinische Diagnoseunterstützung, akademische Leistungsvorhersage und Wettervorhersage. Aufgrund dieser Experimente glauben wir, dass MultiModN der erste inhärent interpretierbare, MNAR-resistente Ansatz zur multimodalen Modellierung ist», erklärt Vinitra Swamy, Doktorandin bei ML4ED und MLO und Erstautorin des Projekts.
Ein erster Anwendungsfall: medizinische Entscheidungsfindung
Der erste Anwendungsfall für MultiModN ist ein System zur Unterstützung klinischer Entscheidungen für medizinisches Personal in ressourcenarmen Gebieten. Im Gesundheitswesen fehlen oft klinische Daten, sei es aus Ressourcenmangel (Patient oder Patientin kann sich den Test nicht leisten) oder aus Ressourcenüberfluss (der Test ist überflüssig, weil bereits ein besserer Test durchgeführt wurde). MultiModN ist in der Lage, aus diesen realen Daten zu lernen, ohne deren Voreingenommenheit zu übernehmen, und die Vorhersagen an jede Kombination oder Anzahl von Eingaben anzupassen.
«Fehlende Daten sind ein Kennzeichen von Daten in ressourcenarmen Umgebungen, und wenn Modelle diese Muster des Fehlens lernen, können sie ihre Vorhersagen verzerrt darstellen. Der Bedarf an Flexibilität angesichts unvorhersehbar verfügbarer Ressourcen war die Inspiration für MultiModN», erklärte Hartley, der auch Arzt ist.
Vom Labor ins wirkliche Leben
Die Veröffentlichung ist jedoch nur der erste Schritt zur Umsetzung. Hartley hat mit Kollegen des Universitätsspitals Lausanne (CHUV) und des Inselspitals, Universitätsspital Bern uBern, zusammengearbeitet, um klinische Studien zur Diagnose von Lungenentzündung und Tuberkulose in ressourcenarmen Umgebungen durchzuführen, und sie rekrutieren Tausende von Patienten in Südafrika, Tansania, Namibia und Benin.
Die Forschungsteams haben eine gross angelegte Schulungsinitiative durchgeführt und mehr als 100 Ärzte und Ärztinnen darin geschult, systematisch multimodale Daten, einschliesslich Bildern und Ultraschallvideos, zu sammeln, damit MultiModN so geschult werden kann, dass es auf reale Daten aus ressourcenarmen Regionen reagieren kann.
«Wir sammeln genau die Art von komplexen multimodalen Daten, für die MultiModN entwickelt wurde», sagte Dr. Noémie Boillat-Blanco, Ärztin für Infektionskrankheiten am CHUV, und fügte hinzu: «Wir freuen uns über ein Modell, das die Komplexität der fehlenden Ressourcen in unseren Gegenden und die systematische Abwesenheit von klinischen Routineuntersuchungen berücksichtigt.»
Maschinelles Lernen für das Gemeinwohl
Die Entwicklung und Schulung von MultiModN ist eine Fortsetzung der Bemühungen der EPFL, die Werkzeuge des maschinellen Lernens an die Realität und an das öffentliche Interesse anzupassen. Die Entwicklung von MultiModN erfolgt kurz nach der Lancierung von Meditron, dem weltweit leistungsstärksten Open-Source-LLM, das ebenfalls dazu dient, klinische Entscheidungen zu unterstützen.
Beide Tools stehen im Einklang mit der Mission des neuen EPFL AI Center, das sich mit der Frage beschäftigt, wie verantwortungsvolle und effektive KI die technologische Innovation zum Nutzen aller Bereiche der Gesellschaft voranbringen kann.
Dr. Mary-Anne Hartley ist eine der Hauptrednerinnen bei den kommenden Applied Machine Learning Days (AMLD) im SwissTech Convention Center vom 23. bis 26. März 2024. Vinitra Swamy wird MultiModN auf der AMLD-Schiene «Applied eXplainable AI» vorstellen.