Ein Werkzeug, um die Komplexität der realen Welt zu erfassen
Viele Phänomene – z. B. Gehirnsignale, Aktienkurse oder COVID-Krankenhausaufenthalte – können anhand von Zeitreihendaten untersucht werden, die als wiederholte Messungen über ein bestimmtes Zeitintervall erfasst werden. Die meisten Instrumente zur Interpretation solcher Daten beruhen auf der so genannten paarweisen Statistik, bei der die Wechselwirkung zwischen zwei Variablen berücksichtigt wird. In der realen Welt sind Ereignisse jedoch oft von mehr als nur zwei Variablen abhängig.
«Stellen Sie sich ein Gespräch in einer Kneipe zwischen zwei Personen vor und nicht zwischen drei oder vier, oder stellen Sie sich die Interaktionen zwischen einem Paar und einem Paar mit Kind vor; die Dynamik ändert sich völlig, je mehr Variablen Sie hinzufügen», erklärt Enrico Amico vom Medical Image Processing Lab (MIP:Lab). Amico ist derzeit SNF-Ambizione-Stipendiat des Labors, das gemeinsam von der EPFL-Fakultät für Ingenieurwissenschaft und Technologie und der Medizinischen Fakultät der Universität Genf betrieben wird.
«Als Computational Neuroscientist weiss ich, dass die neuronale Aktivität von vielen verschiedenen Teilen des Gehirns koordiniert wird, aber wenn ich Hirndaten sammle, kann ich nur Zeitreihendaten analysieren, die sich auf Paare von Netzwerkknoten beziehen; ich kann keine Interaktionen höherer Ordnung (oder Gruppen) analysieren», sagt er.
Amico und Andrea Santoro vom Neuro-X Institute erkannten die Notwendigkeit eines verbesserten Berechnungsrahmens für die Interpretation der Komplexität realer Phänomene und arbeiteten mit Kolleginnen und Kollegen von der österreichischen Central European University und dem italienischen CENTAI Institute zusammen, um eine Methode zur Analyse der übergeordneten Organisation multivariater Zeitreihendaten zu entwickeln. Ihre bahnbrechende Arbeit ist in Nature Physics veröffentlicht worden.
«Vereinfacht gesagt, haben wir eine Methode entwickelt, um Informationen höherer Ordnung aus realen Daten zu erkennen und abzuleiten. Dies ist Teil eines aufregenden neuen Zweigs der höheren Mathematik mit potenziellen Anwendungen in vielen realen Systemen, von den Neurowissenschaften über das Finanzwesen und die Epidemiologie bis hin zur Medizin, Klimawissenschaft und Ökologie – eigentlich alles», sagt Amico.
Aufdeckung multivariater Wechselwirkungen mit Daten-'Polaroids'
Die Forschenden wendeten ihre neue Methodik auf drei komplexe reale Datensätze über Gehirnaktivität, Aktienkursschwankungen und Epidemien des 20. Jahrhunderts an. Ihr Ansatz höherer Ordnung war in der Lage, wichtige Merkmale in jedem Regime zu unterscheiden, die mit standardmässigen paarweisen Statistiken nicht erkannt werden konnten. Wie Amico es ausdrückt, fungierte jede Zeitreihenmessung als eine Art dreidimensionaler «Polaroid» oder Schnappschuss der räumlichen Konfiguration des untersuchten Systems.
Im Fall der Gehirnaktivität konnte die multivariate Zeitreihenmethode der Forschenden beispielsweise Oszillationen zwischen chaotischen und synchronisierten neuronalen Interaktionen in einem ruhenden Gehirn erkennen. In ähnlicher Weise war ihre Methode im wirtschaftlichen Beispiel besser in der Lage, zwischen Zeiten der finanziellen Stabilität und der Krise zu unterscheiden. Im epidemiologischen Beispiel waren die Forschenden sogar in der Lage, Wechselwirkungen zwischen der Ausbreitung verschiedener Krankheiten, wie Grippe und Keuchhusten, zu erkennen.
«Man könnte meinen, dass sich Epidemien unabhängig voneinander ausbreiten, aber mit unserem Ansatz waren wir in der Lage, verschiedene Krankheiten genauer zu klassifizieren und sogar zu erkennen, wie die Ausbreitung einer Krankheit mit der Ausbreitung einer anderen interagiert.»
Rechenleistung – und Kreativität – sind der Schlüssel
Amico erklärt, dass der Grund, warum multivariate Berechnungen bisher nicht versucht wurden, vor allem in den jüngsten Fortschritten bei der Rechenleistung liegt. Das Konzept der multivariaten Zeitreihenanalyse ist zwar einfach genug, aber viel leichter gesagt als getan, da die Komplexität der mathematischen Modellierung mit jeder zusätzlichen Variablen exponentiell ansteigt.
«Dank der modernen Rechenleistung und dem Zugang zu grossen Datenmengen können wir die alte Mathematik auf neue Weise nutzen. Rechenleistung ist der Schlüssel – ebenso wie Kreativität. Wir sind dabei, eine neue Mathematik zu schaffen, und kreatives Denken ist wichtig, um diese Probleme anzugehen.»
Ist also der Himmel die Grenze, wenn es um die Anzahl der Variablen geht, die gleichzeitig analysiert werden können? In der Theorie vielleicht, aber in der Praxis nicht.
«In unserer Arbeit haben wir uns auf drei Variablen konzentriert. Ich denke, dass wir mit fünf Variablen wahrscheinlich an die Grenzen der heutigen maximalen Rechenleistung stossen würden», sagt Amico.