Kleine KI-Sprachmodelle für mehr Effizienz
Seit OpenAI Ende 2022 sein grosses Sprachmodell in grossem Stil veröffentlicht hat, sind viele andere Big-Tech-Unternehmen in das Rennen eingestiegen. In einem Tempo, das zeigt, dass sie keineswegs überrumpelt wurden und dass die Arbeiten zur Schaffung generativer KI-Tools für natürliche Sprache tatsächlich seit mehreren Jahren parallel in der Entwicklung waren.
Es ist jedoch auffällig, wie ähnlich die Ansätze sind. Bis auf wenige Nuancen beruhen alle diese Modelle auf demselben Prinzip: dem Prinzip der Aufnahme und Verarbeitung von Milliarden von «Parametern», d. h. von Daten, die aus in Netzwerken verfügbaren Dokumenten gesammelt wurden, durch Deep Learning.
Nach diesem Schritt sind diese Modelle in der Lage, Inhalte – Texte, Bilder, Töne, Videos usw. – nach statistischen Prinzipien zu generieren. Die wahrscheinlichsten Sequenzen (von Wörtern, Pixeln, Tönen usw.) werden als Antwort auf die Anweisung produziert. Nicolas Flammarion, Leiter des Labors für maschinelle Lerntheorie an der EPFL, erklärt: «Diese Methode birgt jedoch Risiken. Ein grosser Teil der zur Verfügung stehenden Inhalte kann toxisch, gefährlich oder schlichtweg irreführend sein. Das Modell muss also eine Phase der Überwachung und Verfeinerung durchlaufen und sich zahlreiche Filter auferlegen lassen.»
Vermeiden, in Informationen zu ertrinken
Wir befinden uns also in einer erstaunlichen Situation, in der Milliarden von Bytes an Daten unermüdlich «gemahlen» wurden, von denen man aber nur einen Bruchteil der Ergebnisse nutzen kann. Das ist ungefähr so, als müsste man bei jeder Anfrage alle Bücher der Kongressbuchhandlung einzeln öffnen und Seite für Seite durchblättern, bis man auf den richtigen Satz stösst...
Einen Weg zu finden, die extreme Leistungsfähigkeit der grossen Sprachmodelle nutzen zu können und sie gleichzeitig effizienter, sicherer und sparsamer zu machen, scheint daher plausibel. «Eine Methode, dies zu tun, besteht darin, die Quellen der Modelle so einzuschränken, dass sie für bestimmte Anwendungen perfekt funktionieren, ohne Anspruch auf Universalität zu erheben», erklärt Martin Rajman, Forscher und Dozent für künstliche Intelligenz an der EPFL.
Hier kommen die «kleinen Sprachmodelle», kurz SLM, ins Spiel. Ihre Schlankheitskur kann verschiedene Formen annehmen, aber meistens geht es darum, die Grösse der Datenbank, auf die sie sich beziehen, zu begrenzen – man spricht dann von «augmented generation of recovery», kurz RAG. Das Beispiel Meditron zeigt, dass es sich bei den Quellen um zuverlässige und geprüfte medizinische Datenbanken handelt.
Dadurch wird die Verbreitung falscher Informationen von vornherein ausgeschlossen, die Fähigkeiten eines an grossen Modellen trainierten Konversationsagenten auf diese kontrollierten Daten anzuwenden. Dieser kann die Informationen lesen und verbinden, um daraus nützliche Ressourcen zu gewinnen.
Die EPFL arbeitet an mehreren Projekten für kleine Sprachmodelle. Neben Meditron läuft ein Pilotprojekt, das sich mit allen Gesetzen und Vorschriften befasst, die das Leben an der Hochschule regeln - das sogenannte «Polylex»-Korpus. Ein weiteres soll die Transkription von Vorlesungen optimieren, um sie möglichst zuverlässig indizieren zu können. Auch die Anpassung mehrerer Verwaltungsprozesse wird in Betracht gezogen.
Kostengünstigere Nutzung
Durch die Begrenzung des Umfangs der Quellen benötigen diese Modelle nicht mehr unbedingt leistungsstarke Supercomputer – einige können sogar innerhalb eines Smartphones eingesetzt werden. «Ein weiterer wichtiger Vorteil dieser Anwendungen ist, dass sie in einem geschlossenen Raum arbeiten und daher die durch die Anweisungen gelieferten Daten schützen», betont Martin Rajman. Wenn man im Gegensatz dazu ChatGPT anweist, ein Meeting zu transkribieren und dann zusammenzufassen, was es sehr gut kann, hat man nicht die geringste Ahnung, was mit den potenziell vertraulichen oder datenschutzrelevanten Informationen geschieht, die so an unbekannte Server übertragen werden.»
Da sie auf der Konversationsstärke der grossen Modelle basieren, aber einen Grossteil ihrer Gefahren einschränken, sind kleine Sprachmodelle daher besonders bei Unternehmen gefragt. Ob für ihre interne Organisation oder gegenüber ihren Kunden, spezielle Konversationsroboter können sich als äusserst nützlich und effektiv erweisen. Es ist also kein Zufall, dass es mittlerweile überall auf der Welt Unternehmen gibt, die den Einsatz von Robotern anbieten.
Wenn 2023 ein Feuerwerk an grossen Sprachmodellen mit ihren Stärken und Schwächen stattfand, könnte 2025 die Verbreitung von Robotern beginnen.In diesem Jahr wird es zu einer weit verbreiteten Einführung kleinerer, besser kalibrierter – und absolut vertrauenswürdiger – Sprachmodelle kommen.
Meditron, das medizinische Vorzeigemodell der EPFL
Wenn ein Hautausschlag auftritt, ein Schmerz in der Wade oder eine ärztliche Verschreibung, stürzen wir uns auf das Internet, um mehr zu erfahren. Sei es durch eine klassische Suche oder eine Anfrage an eine generative KI, man versucht, sich zu beruhigen, selbst auf die Gefahr hin, sich in einem hypochondrischen Delirium zu verlieren. Die Diagnosen der grossen, generalistischen Sprachmodelle wie ChatGPT oder Claude beruhen jedoch auf obskuren Quellen jeglicher Art, die sie schwächen.
Die Lösung liegt in kleineren, gezielteren und leistungsfähigeren Modellen, die von zuverlässigeren Daten gespeist werden. Im medizinischen Bereich ist Meditron, ein von Wissenschaftlern der EPFL und der Yale School of Medicine entwickelter Algorithmus, bis heute das weltweit leistungsfähigste medizinische Diagnoseinstrument. Er wurde vor etwas mehr als einem Jahr als Open Source veröffentlicht, besteht die medizinischen Prüfungen in den USA besser als der durchschnittliche Mensch und beantwortet viele Fragen auf vernünftige Weise. Meditron soll den Arzt nicht ersetzen, sondern ihm helfen, Entscheidungen zu treffen und Diagnosen zu stellen, wobei das letzte Wort immer bei einem Menschen liegen sollte.
Die Stärke von Meditron, das auf dem Open-Access-Modell Llama von Meta basiert, liegt darin, dass es mit sorgfältig ausgewählten medizinischen Datenquellen trainiert wurde. Diese umfassen von Fachleuten begutachtete medizinische Literatur aus Open-Access-Repositorien wie PubMed und eine einzigartige Sammlung verschiedener Richtlinien für die klinische Praxis, darunter auch die des IKRK, die zahlreiche Länder, Regionen, Krankenhäuser und internationale Organisationen abdecken.
«Der freie Zugang ist vielleicht der wichtigste Aspekt von Meditron», meint Annie Hartley, Professorin am Labor für intelligente Technologien für globale Gesundheit und humanitäre Reaktionen (LIGHT) an der EPFL und in Yale. Es kann auf ein Mobiltelefon heruntergeladen werden und funktioniert auch in zivilisationsfernen Gebieten, in denen es vielleicht keinen oder nur wenig Zugang zum Netz gibt. Meditron ist im Gegensatz zu den Black Boxes der Grossunternehmen transparent und wird mit zunehmender Nutzung immer besser. «Es wird ständig weiterentwickelt, und seine Stärke ist es, Daten zu integrieren, die aus Regionen stammen, die oft unterrepräsentiert sind», fährt Annie Hartley fort.
Um universeller zu sein und die Herausforderungen der realen Welt besser widerzuspiegeln, haben die Designer und Designerinnen eine Initiative gestartet, die Fachleute aus der ganzen Welt dazu auffordert, die Leistung des Modells in realen Szenarien und mit schwierigen Fragen zu bewerten. «Die Tatsache, dass sich diese Fachleute in unserer Open-Source-Gemeinschaft freiwillig melden, um Meditron unabhängig zu validieren, ist eine Anerkennung seines Wertes», stellt die Professorin fest. «Nichts davon ist mit den geschlossenen Modellen verfügbar, die von den großen Technologieunternehmen entwickelt werden», erläutert Martin Jaggi, Leiter des Labors für maschinelles Lernen und Optimierung.
Ein weiterer Schritt in Richtung personalisierter Medizin
Ein weiteres Projekt an der EPFL, das auf Datenqualität setzt, ist das von Emmanuel Abbé, Inhaber des Lehrstuhls für Mathematik der Datenwissenschaft an der EPFL, in Zusammenarbeit mit dem CHUV durchgeführte Projekt zur Vorbeugung von Herzinfarkten. Mithilfe einer KI werden die Bilder von Angiographien – bildgebende Verfahren zur Darstellung des Herzens und der Gefässe – analysiert und mit vielen anderen verglichen, um das Risiko eines Herzinfarkts vorherzusagen. Um ihr Modell besser zu trainieren, werden die Wissenschaftlerinnen und Wissenschaftler in den nächsten drei Jahren eine grosse Kohortenstudie in der Schweiz mit mindestens 1000 Patienten starten.
Solche Arten von Modellen könnten auch eine grössere Tür für die personalisierte Medizin öffnen. «Wenn man die Ergebnisse der Modelle mit dem persönlichen Patientendossier und allen Daten, die von vernetzten Uhren oder bestimmten Apps gesammelt werden, abgleicht, ist das Potenzial enorm», argumentiert Olivier Crochat, Direktor des Center for Digital Trust. Aber es wird darauf ankommen, robuste Massnahmen zu ergreifen, um diese hochsensiblen Daten zu schützen und eine ethische und faire Nutzung zu gewährleisten.»