Ein neues kryptographisches Tool für sichere genomische Studien
Fortschritte im Bereich der generativen künstlichen Intelligenz und des maschinellen Lernens, die auf grossen Datensätzen in verschiedenen Einrichtungen trainiert wurden, haben das Potenzial, die Medizin zu revolutionieren. Daten sind jedoch schwer zu beschaffen. Sie sind in einzelnen Krankenhäusern, Arztpraxen und Kliniken auf der ganzen Welt isoliert. Auch die Risiken für die Privatsphäre, die sich aus der Offenlegung medizinischer Daten ergeben, sind ein ernsthaftes Problem, so dass die bestehenden Vorschriften zur gemeinsamen Nutzung von Daten den Umfang der Datenzusammenarbeit in der medizinischen Forschung weitgehend eingeschränkt haben.
Es gibt zwar kryptografische Werkzeuge für sichere Berechnungen, aber sie sind entweder unpraktisch oder entsprechen nicht dem aktuellen Stand der Technik. Nun wurde ein von der EPFL entwickelter Ansatz erfolgreich im grossen Massstab demonstriert und wird nun europaweit eingeführt.
Sichere föderierte genomweite Assoziationsstudien (Secure Federated Genome-wide Association Studies, SF-GWAS) sind eine Kombination aus sicheren Berechnungsrahmen und verteilten Algorithmen, die effiziente und genaue Studien mit privaten Daten ermöglichen, die sich im Besitz mehrerer Einrichtungen befinden, und gleichzeitig die Vertraulichkeit der Daten gewährleisten. Eine Studie mit fünf Datensätzen, darunter eine britische Biobank-Kohorte mit 410 000 Personen, hat gezeigt, dass sich die Laufzeit im Vergleich zu früheren Methoden um eine Größenordnung verbessert hat.
«In vielen Fällen ist es aus praktischen oder rechtlichen Gründen nicht möglich, Daten zu zentralisieren, oder einfach, weil die Menschen nicht bereit sind, sie zu teilen. Das Ziel ist es also, Informationen zu extrahieren, ohne die Daten zu teilen», sagt Jean-Pierre Hubaux, akademischer Direktor des EPFL-Zentrums für digitales Vertrauen (C4DT), das der Fakultät für Informatik und Kommunikationswissenschaften angegliedert ist.
«Wir haben vor einigen Jahren einen Prototyp entwickelt, aber es fehlte noch der Nachweis, dass er in grossem Massstab mit Datensätzen von realer Grösse funktioniert. Dies ist nun in Zusammenarbeit mit dem MIT und Yale geschehen, und unsere neuesten Forschungsergebnisse zeigen, dass es möglich ist, Informationen aus geografisch verteilten Datensätzen zu extrahieren, ohne dass die Ergebnisse an Präzision verlieren. Dies eröffnet eine neue Ära in der Datenzusammenarbeit», fuhr er fort.
SF-GWAS kombiniert zwei Schlüsselkonzepte. Erstens verfolgt es einen föderalen Ansatz für sichere Berechnungen, was bedeutet, dass jeder Datensatz am jeweiligen Ursprungsort aufbewahrt wird. Dies minimiert die Rechenkosten, indem große Datenübertragungen zwischen den Standorten vermieden werden, und ermöglicht den Einsatz effizienter kryptografischer Operationen, die die an jedem Standort erzeugten Teilergebnisse schützen.
Zweitens wird ein effizientes algorithmisches Design eingeführt, das die föderierte Ausführung verschiedener End-to-End-GWAS-Pipelines unterstützt.
«Es klingt kontraintuitiv, aber unser Ansatz teilt Daten, ohne sie zu teilen», erklärt Hubaux, «er nutzt die Existenz der Datensätze, ohne sie übertragen zu müssen, und ist im Grunde ein zusätzlicher Wert für die Daten, eine zusätzliche Motivation, zusammenzuarbeiten, ohne die Kontrolle zu verlieren.»
SF-GWAS wurde bereits in fünf Schweizer Universitätsspitälern installiert und wird derzeit von Tune Insight, dem EPFL-Spin-off, das diese Arbeit leitet, in mehreren italienischen Spitälern und für europäische Krebsnetzwerke eingeführt. Das Unternehmen ist auch in Gesprächen mit medizinischen Einrichtungen in anderen Ländern.
Hubaux ist der Ansicht, dass SF-GWAS nicht nur die medizinische Forschung in großem Maßstab zur Festlegung und Optimierung der öffentlichen Gesundheitspolitik erschliesst, was in einer Welt der Silos einfach nicht möglich ist, sondern auch einen wertvollen Nebeneffekt hat. Derzeit sind die Datensätze de facto weltweit verteilt und befinden sich hier und da auf Festplatten und Bändern, weil der Datentransfer traditionell sehr kompliziert ist. Auch die Erfassung von medizinischen Daten wird an verschiedenen Orten unterschiedlich gehandhabt. Hubaux bezeichnet dies als «prähistorisch» und sagt, dass die Datensätze infolgedessen sehr wenig genutzt werden.
«Wir sind dabei, ein Wertesystem einzurichten, um sicherzustellen, dass die Daten in Zukunft interoperabel sind und an jedem Ort auf die gleiche Weise erfasst werden, denn sonst wird es zu einem Fall von <Junk in, Junk out>. Die Umstellung ist kostspielig und wird einige Zeit in Anspruch nehmen, aber wir haben die Instrumente entwickelt, um sie zu erleichtern, und es ist eine Entwicklung im Gange», sagte Hubaux.
«Die Bereitschaft, in grossem Massstab zu arbeiten, bedeutet einen Kulturwandel, der sich hoffentlich positiv auswirkt: Die Menschen fühlen sich ermutigt, bei der Speicherung und Strukturierung ihrer Daten strenger vorzugehen, um die Interoperabilität zu gewährleisten, denn wenn sie dies nicht tun, kann ihre Einrichtung vom Rest der Gemeinschaft ausgeschlossen werden. Das ist wirklich ein Nebeneffekt eine bessere Gesamtqualität der Gesundheits- und medizinischen Daten.»