EPFL-Algorithmus in der weltweit populärsten Deep-Learning-Software
Deep Learning ist Teil einer breiteren Familie von Methoden des maschinellen Lernens, die auf künstlichen neuronalen Netzwerken basieren, und hat es uns ermöglicht, Sprach- und Bilderkennungs-Tools zu entwickeln, Medikamentenentwicklung und Toxikologie zu unterstützen und die Erkennung von Finanzbetrug zu verbessern.
Da die Anwendungen des maschinellen Lernens in unserem modernen, digitalen Zeitalter immer grösser, komplexer und allgegenwärtiger werden, haben die neuronalen Netzwerke eine enorme Grösse erreicht und bestehen aus Billionen von Verbindungen. Um diese Modelle schneller zu trainieren, verteilen Forschende den Trainingsaufwand typischerweise auf viele Computer oder Grafikprozessoren. Doch genau wie Menschen, die zusammenarbeiten, um eine Aufgabe zu lösen, leiden auch die zusammenarbeitenden Computer unter dem Kommunikations-Overhead.
«Da die zu trainierenden neuronalen Netze so gross sind, kann die für ein genaues Modell erforderliche Kommunikation zwischen den Computern viele PetaBytes betragen. Forschende haben lange versucht, Wege zu finden, um die benötigte Bandbreite zu komprimieren und trotzdem ein genaues Training zu ermöglichen», sagt Martin Jaggi, Leiter des Machine Learning and Optimization Laboratory (MLO), das zur Fakultät für Informatik und Kommunikation gehört.
Neuer EPFL-Algorithmus entwickelt
PowerSGD ist ein Algorithmus, der von den Doktoranden Thijs Vogels und Sai Praneeth Karimireddy entwickelt wurde, die mit Professor Jaggi zusammenarbeiten. Sein Name stammt von der Potenzmethode, bei der eine Matrix wiederholt mit einem Vektor multipliziert wird, um ihre Hauptrichtungen zu erfassen. Hier haben die EPFL-Forscher sie auf die Änderungen im Modell des neuronalen Netzes angewandt, was eine drastische Reduzierung der beim verteilten Training erforderlichen Kommunikation ermöglicht. Bei der Anwendung auf Standard-Benchmarks für Deep Learning, wie Bilderkennung oder Transformationsmodelle für Text, spart der Algorithmus bis zu 99 % der Kommunikation bei gleichbleibend guter Modellgenauigkeit.
«Machine-Learning-Modelle werden in Zukunft immer weiter wachsen. Die Entwicklung neuer Trainingsalgorithmen, die auf solche Modelle skalieren und den Energiebedarf reduzieren können, ist ein enorm wichtiges Thema. Neben PyTorch haben wir uns gefreut zu erfahren, dass unser neuer Algorithmus kürzlich auch in DALL-E von Open-AI eingesetzt wurde, das kreative Bilder aus Text generieren kann», so Thijs Vogels von der EPFL.
PyTorch 1.8 mit PowerSGD
PyTorch ist eine Open-Source-Bibliothek für maschinelles Lernen, die von rund 80 % der akademischen Publikationen verwendet wird, die Deep Learning einsetzen. Sie hat ihre neueste Version, 1.8, auf den Markt gebracht, die zum ersten Mal das von der EPFL entwickelte PowerSGD enthält.
Damit steht das kommunikationseffizientere Trainingsschema – das für jedes Deep-Learning-Modell funktioniert – nun auch Anwenderinnen und Anwendern in Industrie und Forschung zur Verfügung, die die Kommunikationskompression mit einem einfachen Software-Schalter aktivieren können.
Zusätzlich zu den Vorteilen beim Training verbraucht der effiziente Algorithmus weniger Strom und hilft so, den Energieverbrauch zu senken – wichtig im Kampf gegen den Klimawandel.
Dezentrales Lernen
Mit Blick auf die Zukunft arbeitete das EPFL-Team, das PowerSGD entwickelt hat, kürzlich daran, das Prinzip auch auf dezentrales Training auszuweiten, bei dem Agenten kollaborativ ein Deep-Learning-Modell trainieren können, ohne dass ein zentraler Server benötigt wird und ohne das Risiko, dass ihre Daten durchsickern. Dies kann ein entscheidender Faktor für datenschutzsensible Anwendungen sein, wie z. B. in medizinischen Anwendungsfällen oder bei persönlichen mobilen Geräten.