«Wir beschaffen nicht einfach einen neuen Rechner»
ETH News: Letztes Jahr startete die erste Phase der Installation des neuen Supercomputers «Alps», dem Nachfolger von «Piz Daint». Wie liefen die Arbeiten bisher während der Corona-Krise?
Thomas Schulthess: Wir mussten unser Vorgehen zwar umstellen, doch wir konnten den Zeitplan mehr oder weniger einhalten, auch wenn es ein paar kleinere Verschiebungen gab. Während des ersten Lockdowns war es nicht möglich, die ersten vier Schränke des neuen Rechners wie vorgesehen von den USA in die Schweiz zu bringen. Aber die Herstellerfirma HPE hat es trotzdem geschafft, die Hardware zu bauen, so dass wir im Juni und Juli Zugang zu unseren Maschinen in den USA hatten und darauf arbeiten konnten. Daher lief die Abnahme der Rechnerschränke in Lugano im Herbst ohne grössere Probleme ab.
Der Ausbau von «Alps» wird noch bis im Frühjahr 2023 dauern. Warum geht das so lange?
Weil das Produkt, das wir möchten, noch gar nicht vollständig entwickelt ist. Das zentrale Element des neuen Rechners ist der Cray Shasta Software-Stack, bei dessen Entwicklung wir uns mit anderen Rechenzentren beteiligt haben. Dieser Software-Stack ist nun operativ einsetzbar. Dennoch braucht es noch zwei Jahre, bis die gewünschte Rechnerinfrastruktur vollständig fertig sein wird.
Was ist denn das Besondere an der neuen Rechnerinfrastruktur?
Mit dem Cray Shasta Software-Stack haben wir uns für eine Software-definierte Infrastruktur entschieden. Das ist für mich der entscheidende Punkt. Ohne diesen Software-Stack würde die neue Maschine für mich extrem an Wert verlieren. «Alps» wäre zwar immer noch die beste Variante im Bereich High-Performance-Computing, die es in absehbarer Zeit auf dem Markt geben wird. Aber wir haben ganz klar höhere Ziele, die wir nicht erreichen würden. Das wäre eine grosse Enttäuschung.
Was heisst das genau?
Wir betreiben am CSCS in erster Linie eine Forschungsinfrastruktur, die wir unter anderem als User Lab Forschenden zur Verfügung stellen. Das ist unsere Kernaufgabe. Im Gegensatz zu anderen Forschungsinfrastrukturen, wie beispielsweisse dem SwissFEL am PSI, machen wir jedoch selbst praktisch keine eigene Forschung an unseren Instrumenten. Wir müssen deshalb einen kreativen Weg finden, wie wir unser eigenes Fachwissen erweitern, um die Forschungsinfrastruktur mitentwickeln zu können. Deshalb arbeiten wir eng mit Forschenden von verschiedenen Schweizer Hochschulen zusammen.
Das CSCS versteht sich primär also nicht als Dienstleister?
Doch, aber nicht im Sinne eines IT-Unternehmens, das Computer betreibt, um Rechenzeit anbieten zu können. Der Computer ist für uns das Mittel zum Zweck und der Zweck ist die Forschungsinfrastruktur, die wir mit Mitteln des ETH Rats zusammen mit Forschenden bauen und weiterentwickeln und mit Beiträgen der ETH Zürich betreiben. Diese Forschungsinfrastruktur wollen wir nun mit dem Kathmandu-Programm weiterentwickeln.
Worum geht es bei diesem Programm genau?
Das Kathmandu-Programm ist ein wichtiger Teil der erwähnten Neubeschaffung. Wir beschaffen nicht einfach einen neuen Rechner, der ins unveränderte Rechenzentrum integriert wird, sondern wir bauen in mehreren Ausbauphasen das Rechenzentrum um. Heute betreiben wir am CSCS verschiedene Rechnersysteme für unterschiedliche Bedürfnisse. In Zukunft wir es nur noch eine Infrastruktur geben. Für MeteoSchweiz haben wir zum Beispiel bisher einen eigenen Rechner betrieben. In der Zukunft wird MeteoSchweiz auf einer oder mehreren Partitionen dieser neuen Infrastruktur rechnen.
Was ist der Vorteil dieser Lösung?
Wir haben am CSCS immer schon verschiedene Services für die Forschenden angeboten, aber die Systemarchitektur war nicht serviceorientiert. Deshalb mussten wir jeweils mit grossem Personalaufwand diese Services gemäss den Anforderungen der Benutzer und der Architektur der Maschinen definieren. Dieser Prozess wird nun einfacher, denn wir haben eine Software-definierte Infrastruktur.
Was muss man sich unter einer Software-definierten Infrastruktur vorstellen?
Wenn wir zusammen mit HPE alles richtig machen, können wir unsere Hardware künftig sehr flexibel einsetzen. Welche Services wir anbieten, definieren wir künftig über die Software, nicht mehr über die Hardware. Dazu kombinieren wir sogenannte Microservices. Damit definieren wir die Partitionen für die verschiedenen Benutzer, die wir ihnen dann über standarisierte Schnittstellen zur Verfügung stellen. Das können virtuelle Ad-hoc-Cluster für einzelne Benutzer sein, aber auch vordefinierte Cluster, die Forschungsinfrastrukturen wie zum Beispiel das PSI mit uns zusammenstellen und dann selber betreiben. Wir können mit den Mikroservices auch Daten-Plattformen kreieren. Geplant ist beispielsweise, dass wir mit verschiedenen Partnern eine sogenannte Domain-Plattform für Wetter- und Klimasimulationen entwickeln.
Sie nennen explizit den Bereich Wetter und Klima. Wird «Alps» auch für andere Wissenschaftsbereiche von Nutzen sein?
Ja, wir entwickeln mit «Alps» einen «General Purpose Supercomputer». Unsere Ziele hören ganz und gar nicht bei Klimasimulationen auf. Jedoch sind diese ein extrem gutes Mittel zum Zweck, da bei Klimasimulationen die Problemstellung sehr klar formuliert ist. Zudem bilden sie alle Anforderungen an eine moderne Supercomputing- und Dateninfrastruktur ab. Wir reagieren auf diese ganz konkreten Anforderungen mit einer Infrastruktur, die wir dann auch anderen Forschungsbereichen anbieten können.
Was ändert sich dadurch für die Benutzer des User Lab?
Bisherige Nutzer von «Piz Daint» werden ohne Anpassungen das neue System nutzen können. Es sollte für sie sogar einfacher sein. Wir werden auch die HPC-Plattform für das User Lab als virtuellen Bereich innerhalb des Rechnersystems weiterentwickeln. Die Ressourcen werden dadurch leistungsfähiger und sie decken einen grösseren Bereich des Arbeitsablaufs ab. Die Wissenschaftlerinnen und Wissenschaftler können nicht nur Simulationen bei uns durchführen, sondern auch die Vorbearbeitung oder Nachbearbeitung ihrer Daten. Dadurch wird der ganze Ablauf effizienter.
Für die User wird sich also nicht viel ändern. Was bedeutet der Umbau für die Mitarbeitenden am CSCS?
Die neue Strategie wird in gewissen Bereichen ein fundamentales Umdenken erfordern. Die System- und User Support-Ingenieure müssen zum Beispiel umdenken, weil unsere bisherigen Rechner, die wir zusätzlich zu «Piz Daint» betreiben, künftig virtuelle Cluster sein werden. Einige Mitarbeiter werden Microservices entwickeln und unterhalten, andere kombinieren diese Microservices zu virtuellen Clustern oder Anwendungen die dann als Dienstleistungen den Forschenden zur Verfügung stehen.
In Europa werden derzeit grosse Anstrengungen unternommen, um das Hochleistungsrechnen weiter voranzutreiben. Dazu gehört insbesondere auch die Pre-Exascale Initiative der EU. Wie ist das CSCS an diesen Bestrebungen beteiligt?
Das CSCS ist Mitglied beim LUMI-Konsortium, das Teil der Pre-Exascale Initiative ist. Das Akronym steht für «Large Unified Modern Infrastructure». Dabei handelt es sich um einen neuen Supercomputer der Pre-Exascale-Klasse, der in Finnland stehen wird. Dem LUMI-Konsortium sind zehn Mitgliedsstaaten angeschlossen, unter anderem auch die skandinavischen Länder, in denen die Voraussetzungen für die Produktion von günstigem, CO2-freiem Strom und die Kühlung der Rechner optimal sind.
Warum ist dieser Aspekt so wichtig?
Das lässt sich anhand der Klimaforschung erläutern. Unser Ziel ist, Klimamodelle zu entwickeln, die konvektive Wolken wie beispielsweise Gewitterwolken abbilden können. «Alps», der Nachfolger von «Piz Daint», wird eine Anschlussleistung von 5 bis 10 Megawatt haben. Eine Rechnerinfrastruktur, welche die oben genannte Auflösung für die Klimawissenschaften produktiv liefern soll, muss jedoch die 50-fache Leistung erbringen. Da wir keine Performance-Gewinne mehr durch das Moore’sche Gesetz erzielen können, brauchen wir eine fünfzigmal grössere Maschine als der «Alps», womit auch der Energieverbrauch entsprechend ansteigen wird. Es macht daher Sinn, in Zukunft eine solche Rechnerinfrastruktur dort zu bauen, wo die benötigte Energie günstig und umweltverträglich erzeugt werden kann. Solche Standorte haben wir in Mitteleuropa keine, in Nordeuropa aber schon.
Wie sieht der Zeitplan bei LUMI aus?
Der LUMI-Rechner wird ebenfalls von HPE gebaut und soll im Herbst 2021 die Pre-Exascale Leistungsklasse erreichen und im Frühjahr 2022 in Betrieb gehen. Unser «Alps» System wird eineinhalb Jahre später, Ende 2022, fertig installiert sein, und ab April 2023 «Piz Daint» ersetzen. Aber unsere neuen Services werden bereits dieses Frühjahr und während der ersten Ausbauphasen im Sommer/Herbst verfügbar sein; und wir versuchen auch LUMI zu integrieren. Wir haben dann eine sehr starke Gesamt-Infrastruktur zur Verfügung, die auf zwei Teil-Infrastrukturen, «Alps» und LUMI, läuft. Wir werden schneller in diese Richtung voranschreiten als andere in Europa.
Bedeutet das, dass die Schweizer Rechnerressourcen in Zukunft ins Ausland verlagert werden?
Nein, aber wir müssen realistisch sein: Wir werden in der Schweiz nie Rechner von 100 MW oder mehr betreiben. Wir müssen die lokalen Rechenressourcen in der Schweiz auf innovative Pilotprojekte fokussieren und für die Produktion in einen grösseren Verbund integrieren. Unsere Absicht ist, Software-Plattformen zu entwickeln, die auf beiden Infrastrukturen laufen, so dass die Benutzer praktisch gar nicht merken, ob ihre Anwendung in Finnland oder in Lugano läuft.
Hochleistungsrechnen in Lugano
Das Nationale Hochleistungsrechenzentrum der Schweiz (CSCS) entwickelt und stellt im Bereich des Hochleistungsrechnen die Infrastruktur und das Know-how zur Lösung wichtiger wissenschaftlicher und gesellschaftlicher Probleme bereit. Es setzt die nationale Strategie für Hochleistungsrechnen und -netzwerke um, die 2009 vom Schweizer Parlament verabschiedet wurde. Seit 2011 verfügt das CSCS über ein Nutzerlabor für Supercomputing und es ist Teil der Schweizer Forschungsinfrastruktur-Roadmap. Seit 2020 ist es zudem Mitglied des europäischen LUMI-Konsortiums, das einen europäischen Supercomputer der Pre-Exascale-Leistungsklasse aufbaut.