Trainingsalgorithmus für tiefe physische neuronale Netzwerke
Mit ihrer Fähigkeit, riesige Datenmengen durch algorithmisches «Lernen» statt durch herkömmliche Programmierung zu verarbeiten, scheint das Potenzial von tiefen neuronalen Netzen wie Chat-GPT oft grenzenlos zu sein. Doch mit dem Umfang und der Wirkung dieser Systeme sind auch ihre Grösse, ihre Komplexität und ihr Energieverbrauch gewachsen – letzterer ist so hoch, dass er Anlass zur Sorge über den Beitrag zu den globalen Kohlenstoffemissionen gibt.
Während wir bei technologischem Fortschritt oft an den Übergang von der analogen zur digitalen Technik denken, suchen Forschende jetzt nach Antworten auf dieses Problem in Form von physischen Alternativen zu digitalen tiefen neuronalen Netzen. Einer dieser Forscher ist Romain Fleury vom Laboratory of Wave Engineering der EPFL-Fakultät für Ingenieurwissenschaften. In einer in der Zeitschrift Science veröffentlichten Arbeit beschreiben er und seine Kollegen einen Algorithmus für das Training physikalischer Systeme, der im Vergleich zu anderen Methoden eine höhere Geschwindigkeit, eine grössere Robustheit und einen geringeren Stromverbrauch aufweist.
«Wir haben unseren Trainingsalgorithmus erfolgreich an drei wellenbasierten physikalischen Systemen getestet, die anstelle von Elektronen Schallwellen, Lichtwellen und Mikrowellen zur Informationsübertragung nutzen. Unser vielseitiger Ansatz kann jedoch für das Training jedes beliebigen physikalischen Systems verwendet werden», sagt Erstautor und LWE-Forscher Ali Momeni.
Ein «biologisch plausiblerer» Ansatz
Beim Training neuronaler Netze geht es darum, dass die Systeme lernen, optimale Parameterwerte für eine Aufgabe wie Bild- oder Spracherkennung zu erzeugen. Es umfasst traditionell zwei Schritte: einen Vorwärtsdurchlauf, bei dem Daten durch das Netz geschickt werden und eine Fehlerfunktion auf der Grundlage der Ausgabe berechnet wird, und einen Rückwärtsdurchlauf (auch bekannt als Backpropagation oder BP), bei dem ein Gradient der Fehlerfunktion in Bezug auf alle Netzparameter berechnet wird.
In wiederholten Iterationen aktualisiert sich das System auf der Grundlage dieser beiden Berechnungen, um immer genauere Werte zu erhalten. Das Problem dabei? BP ist nicht nur sehr energieintensiv, sondern eignet sich auch schlecht für physikalische Systeme. Für das Training physikalischer Systeme ist in der Regel ein digitaler Zwilling für den BP-Schritt erforderlich, was ineffizient ist und das Risiko einer Diskrepanz zwischen Realität und Simulation birgt.
Die Idee der Wissenschaftlerinnen und Wissenschaftler war es, den BP-Schritt durch einen zweiten Vorwärtsdurchlauf durch das physikalische System zu ersetzen, um jede Netzwerkschicht lokal zu aktualisieren. Diese Methode verbraucht nicht nur weniger Energie und macht einen digitalen Zwilling überflüssig, sondern spiegelt auch das menschliche Lernen besser wider.
«Die Struktur neuronaler Netze ist vom Gehirn inspiriert, aber es ist unwahrscheinlich, dass das Gehirn über BP lernt», erklärt Momeni, «die Idee ist, dass wir, wenn wir jede physische Schicht lokal trainieren, unser tatsächliches physisches System verwenden können, anstatt zuerst ein digitales Modell davon zu erstellen. Wir haben also einen Ansatz entwickelt, der biologisch plausibler ist.»
Die EPFL-Forschenden haben zusammen mit Philipp del Hougne vom CNRS IETR und Babak Rahmani von Microsoft Research ihren Algorithmus für physikalisches lokales Lernen (PhyLL) verwendet, um experimentelle akustische und Mikrowellensysteme sowie ein modelliertes optisches System zu trainieren, um Daten wie Vokallaute und Bilder zu klassifizieren. Die Methode zeigte nicht nur eine vergleichbare Genauigkeit wie BP-basiertes Training, sondern war im Vergleich zum Stand der Technik auch robust und anpassungsfähig – selbst bei Systemen, die unvorhersehbaren externen Störungen ausgesetzt sind.
Eine analoge Zukunft?
Obwohl der LWE-Ansatz das erste BP-freie Training von tiefen physikalischen neuronalen Netzen ist, sind dennoch einige digitale Aktualisierungen der Parameter erforderlich: «Es ist ein hybrider Trainingsansatz, aber unser Ziel ist es, den digitalen Rechenaufwand so weit wie möglich zu reduzieren», sagt Momeni.
Die Forschenden hoffen nun, ihren Algorithmus in einem kleinen optischen System zu implementieren, um die Skalierbarkeit des Netzwerks zu erhöhen.
«In unseren Experimenten haben wir neuronale Netze mit bis zu 10 Schichten verwendet, aber würde es auch mit 100 Schichten und Milliarden von Parametern funktionieren? Das ist der nächste Schritt, der die Überwindung der technischen Grenzen physikalischer Systeme erfordert.»