Auf der Suche nach der intelligenten Maschine
Die weisse Roboterhand im Soft Robotics Lab der ETH Zürich greift nach der Bierdose, hebt sie an und führt sie über das am anderen Ende des Tisches stehende Glas. Dort dreht die Hand die Dose behutsam nach rechts und der goldgelbe Inhalt fliesst prickelnd und ohne Verschütten hinein. Prost.
Bedient wird die Roboterhand, die das ETH Start-up Faive Robotics entwickelte, von Elvis Nava. Der 26-jährige Doktorand hält seine Hand über eine Fläche, die mit einer Kamera und Sensoren ausgestattet ist. Die Roboterhand macht das, was auch Nava macht: Spreizt er die Finger, spreizen sich die des Roboters. Zeigt er auf etwas, tut die Roboterhand es ihm gleich.
Doch damit steht Nava erst am Anfang: «In Zukunft soll das funktionieren, ohne dass wir dem Roboter genau vorgeben, was er machen soll», sagt er. Der Informatiker will Maschinen beibringen, schriftliche oder gesprochene Aufträge auszuführen. Er will sie so intelligent machen, dass sie Menschen verstehen, ihnen bei unterschiedlichen Aufgaben helfen können und schnell neue Fähigkeiten lernen.
Wo heute meist noch spezifische Angaben einer Programmiererin oder eines Programmierers nötig sind, sollen in Zukunft Befehle wie «Schenk mir ein Bier ein» oder «Reich mir den Apfel» ausreichen. Um dieses Ziel zu erreichen, erhielt Nava 2021 ein Fellowship des AI Centers der ETH Zürich: Dieses Programm fördert Talente, die eine Brücke zwischen verschiedenen Forschungsdisziplinen schlagen und dadurch neue KI-Anwendungen entwickeln. Zudem doktoriert der in Bergamo aufgewachsene Italiener an der Professur für Neuroinformatik von Benjamin Grewe und im Labor für weiche Robotik von Robert Katzschmann.
Sinnesreize kombinieren
Wie aber bringt man einer Maschine bei, Befehle auszuführen? Wie sieht diese Kombination aus Künstlicher Intelligenz und Robotik aus? Dafür muss man verstehen, wie das menschliche Gehirn funktioniert:
Wir nehmen unsere Umwelt wahr, indem wir unterschiedliche Sinnesreize kombinieren. Unser Gehirn integriert Bilder, Geräusche, Gerüche, Geschmäcker und haptische Reize meist mühelos zu einem stimmigen Gesamtbild. Diese Fähigkeit ermöglicht es dem Menschen, sich schnell an neue Situationen anzupassen. Wir erkennen intuitiv, wie wir Gelerntes anwenden müssen, um unbekannte Aufgaben zu meistern.
«Computern und Robotern fehlt diese Fähigkeit oft noch», erklärt Nava, der nach einem Studium in Mailand für einen Master in Data Science an die ETH Zürich kam. Dank maschinellem Lernen schreiben Computerprogramme heute zwar Texte, führen Gespräche und malen Bilder, und auch Roboter bewegen sich schnell und selbstständig in schwierigem Gelände. Doch die dahintersteckenden Lernalgorithmen basieren in der Regel nur auf einer Datenquelle. Sie sind, um es in Fachjargon der Informatik zu sagen, nicht multimodal.
Für Nava ist genau dies eine entscheidende Hürde auf dem Weg zu intelligenteren Robotern: «Algorithmen werden mittels grosser, online verfügbarer Datensätze oft nur für einen Aufgabenbereich trainiert: Sprachverarbeitungsmodelle können zwar das Wort ‹Katze› grammatikalisch korrekt verwenden, sie wissen aber nicht, wie eine Katze aussieht. Und Roboter können sich zwar effektiv in schwierigem Gelände bewegen, ihnen fehlt aber meist die Fähigkeit zur Sprach- und Bilderkennung.»
Roboter müssen in die Vorschule
Elvis Nava entwickelt daher Lernalgorithmen für Roboter, die genau das können sollen: Informationen aus verschiedenen Quellen miteinander verknüpfen. «Wenn ich dem Roboterarm sage ‹reich mir den Apfel am Tisch›, dann muss er das Wort Apfel mit den visuellen Eigenschaften eines Apfels verknüpfen. Zudem muss er den Apfel am Tisch erkennen und wissen, wie man nach ihm greift.»
Doch wie bringt der Forscher dem Roboterarm all das bei? Etwas vereinfacht gesagt, schickt Nava ihn in ein zweistufiges Trainingslager. In einer Art Vorschule lernt der Roboter zunächst allgemeine Fähigkeiten wie Sprach- und Bilderkennung sowie einfache Handbewegungen.
Für diese Fähigkeiten gibt es bereits öffentlich zugängliche Modelle, die anhand von riesigen Text-, Bild-, oder Videodatensätzen trainiert wurden. Dabei füttern Forschende zum Beispiel einen Bilderkennungsalgorithmus mit tausenden Bildern, die das Label «Hund» oder «Katze» tragen. Dieser lernt dann selbst, welche Eigenschaften – in diesem Fall Pixelstrukturen – Hunde- oder Katzenbilder ausmachen.
Ein neuer Lernalgorithmus für Roboter
Navas Aufgabe besteht nun darin, die besten verfügbaren Modelle in einem neuen Lernalgorithmus zu kombinieren. Dieser muss unterschiedliche Daten wie Bilder, Texte oder räumliche Angaben in eine einheitliche Befehlssprache für den Roboterarm übersetzen. «Das Wort ‹Bier› und Bilder mit dem Label ‹Bier› werden im Modell vom selben Vektor repräsentiert», erläutert der ETH-Forscher. Dadurch weiss der Roboter, nach was er greifen soll, wenn man ihm die Aufgabe «Schenk mir ein Bier ein» gibt.
Forschende, die sich intensiver mit künstlicher Intelligenz beschäftigten, wissen schon länger, dass es vielversprechend wäre, unterschiedliche Datenquellen und Modelle zu integrieren. Die entsprechenden Modelle sind aber erst seit kurzem vorhanden und öffentlich zugänglich. Zudem gibt es mittlerweile genug Rechenleistung, um sie auch gemeinsam zum Laufen zu bringen.
Wenn Nava über diese Dinge spricht, wirken sie einfach und intuitiv. Doch das täuscht: «Man muss nicht nur die neusten Modelle sehr gut kennen. Manchmal ist es mehr eine Kunst als eine Wissenschaft, sie gemeinsam zum Laufen zu bringen», sagt er. Es sind solche kniffligen Probleme, die Nava besonders reizen. Stundenlang kann er sich an ihnen abarbeiten und immer wieder neue Lösungen ausprobieren.
Spezialtraining: Menschen nachahmen
Hat der Roboterarm die Vorschule durchlaufen und gelernt, Sprache zu verstehen, Bilder zu erkennen und einfache Bewegungen durchzuführen, schickt Nava ihn ins Spezialtraining. Dabei lernt die Maschine zum Beispiel die Bewegungen einer menschlichen Hand beim Einschenken eines Biers nachzuahmen. «Da es sich um sehr spezifische Bewegungsabläufe handelt, reicht es nicht mehr aus, auf bereits bestehende Modelle zurückzugreifen», so Nava.
Daher zeigt er seinem Lernalgorithmus Videoaufnahmen einer Hand, die ein Bier einschenkt. Auf der Grundlage weniger Beispiele versucht der Roboter diese Bewegung zu imitieren. Dabei greift er auf all jene Bewegungen zurück, die er bereits in der Vorschule gelernt hat. Würde der Roboterarm keinerlei Vorwissen mitbringen, wäre er schlicht nicht in der Lage, einen so komplexen Bewegungsablauf nachzuahmen.
«Schenkt der Roboter das Bier ein, ohne etwas zu verschütten, dann sagen wir dem Lernalgorithmus ‹gut gemacht› und er prägt sich diese Bewegungsabfolge ein», erklärt Nava. Dieses Vorgehen wird im Fachjargon als verstärkendes Lernen bezeichnet.
Grundlagen für robotische Helfer
Mit dieser zweistufigen Lernstrategie will Nava dem Traum einer intelligenten Maschine einen kleinen Schritt näherkommen. Wie weit ihn das bringen wird, weiss er selbst noch nicht genau. «Es ist unklar, ob Roboter mit diesem Ansatz auch Aufgaben erfüllen können, die wir ihnen vorab noch nicht gezeigt haben.»
Sehr viel wahrscheinlicher sind allerdings robotische Helfer, die mündliche Befehle ausführen und Aufgaben erfüllen, die sie bereits kennen oder die diesen sehr ähnlich sind. Wie lange es dauert, bis solche Anwendungen in der Pflege, am Bau oder in anderen Bereichen zum Einsatz kommen, wagt Nava nicht zu beantworten.
Zu rasant und unberechenbar sind die Entwicklungen im Bereich künstliche Intelligenz. Er selbst wäre schon froh, wenn ihm die Roboterhand nach der Verteidigung seiner Dissertation tatsächlich das Bier reicht, wenn er freundlich darum bittet.