Grosse Sprachmodelle spüren die Richtung der Zeit
Grosse Sprachmodelle (Large Language Models, LLMs) wie GPT-4 sind für Aufgaben wie Texterstellung, Codierung, den Betrieb von Chatbots, Übersetzung und andere unerlässlich geworden. Im Kern funktionieren LLMs durch die Vorhersage des nächsten Wortes in einem Satz auf der Grundlage der vorherigen Wörter – eine einfache, aber leistungsstarke Idee, die einen Grossteil ihrer Funktionalität ausmacht. Aber was passiert, wenn wir diese Modelle bitten, rückwärts zu prognostizieren – «rückwärts in der Zeit» zu gehen und das vorherige Wort aus den nachfolgenden zu bestimmen?
Diese Frage veranlasste Professor Clément Hongler von der EPFL und Jérémie Wenger von Goldsmiths (London) zu untersuchen, ob LLMs eine Geschichte rückwärts konstruieren können, indem sie am Ende beginnen. In Zusammenarbeit mit Vassilis Papadopoulos, einem Forscher für maschinelles Lernen an der EPFL, entdeckten sie etwas Überraschendes: LLMs sind durchweg weniger genau, wenn sie rückwärts vorhersagen als vorwärts.
Eine grundlegende Asymmetrie
Die Forschenden testeten LLMs verschiedener Architekturen und Grössen, darunter Generative Pre-trained Transformers (GPT), Gated Recurrent Units (GRU) und Long Short-Term Memory (LSTM) neuronale Netze. Jedes von ihnen zeigte die «Arrow of Time»-Vorspannung, was eine grundlegende Asymmetrie in der Art und Weise offenbart, wie LLMs Text verarbeiten.
Hongler erklärt: «Die Entdeckung zeigt, dass LLMs zwar recht gut darin sind, sowohl das nächste Wort als auch das vorherige Wort in einem Text vorherzusagen, aber sie sind immer etwas schlechter in der Rückwärtsrichtung als in der Vorwärtsrichtung: Ihre Leistung bei der Vorhersage des vorherigen Wortes ist immer ein paar Prozent schlechter als bei der Vorhersage des nächsten Wortes. Dieses Phänomen ist für alle Sprachen gleich und kann bei jedem grossen Sprachmodell beobachtet werden.»
Die Arbeit steht auch im Zusammenhang mit der Arbeit von Claude Shannon, dem Vater der Informationstheorie, in seinem bahnbrechenden Aufsatz von 1951. Shannon untersuchte, ob die Vorhersage des nächsten Buchstabens in einer Sequenz genauso einfach ist wie die Vorhersage des vorherigen Buchstabens. Er fand heraus, dass, obwohl beide Aufgaben theoretisch gleich schwierig sein sollten, Menschen die Rückwärtsvorhersage als schwieriger empfanden – obwohl der Leistungsunterschied minimal war.
Intelligente Agenten
«Theoretisch sollte es keinen Unterschied zwischen der Vorwärts- und der Rückwärtsrichtung geben, aber LLMs scheinen irgendwie empfindlich auf die zeitliche Richtung zu reagieren, in der sie Text verarbeiten», sagt Hongler. «Interessanterweise hängt dies mit einer tiefen Eigenschaft der Sprachstruktur zusammen, die erst mit dem Aufkommen von Large Language Models in den letzten fünf Jahren entdeckt werden konnte.»
Die Forschenden bringen diese Eigenschaft mit dem Vorhandensein intelligenter Agenten in Verbindung, die Informationen verarbeiten, was bedeutet, dass sie als Werkzeug zur Erkennung von Intelligenz oder Leben genutzt werden könnte und bei der Entwicklung leistungsfähigerer LLMs helfen könnte. Schliesslich könnte sie neue Wege für die seit langem bestehende Suche nach dem Verständnis des Zeitablaufs als emergentes Phänomen in der Physik aufzeigen.
Die Arbeit wurde auf der prestigeträchtigen International Conference on Machine Learning (2024) vorgestellt und ist derzeit auf arXiv verfügbar.
Vom Theater zur Mathematik
Die Studie selbst hat eine faszinierende Vorgeschichte, von der Hongler erzählt: «Im Jahr 2020 arbeiteten wir mit Jérémie [Wenger] mit der Theaterschule The Manufacture zusammen, um einen Chatbot zu entwickeln, der an der Seite von Schauspielern Improvisationen spielen sollte; bei Improvisationen will man oft die Geschichte fortsetzen, obwohl man weiss, wie das Ende aussehen soll.»
«Um Geschichten zu entwickeln, die auf eine bestimmte Art und Weise enden, kamen wir auf die Idee, den Chatbot darauf zu trainieren, ‹rückwärts›󠅒 zu sprechen, so dass er eine Geschichte anhand ihres Endes generieren kann – z. B. wenn das Ende ‹sie lebten glücklich bis ans Ende ihrer Tage›󠅒 lautet, könnte das Modell sagen, wie es passiert ist. Wir haben also Modelle für diese Aufgabe trainiert und festgestellt, dass sie rückwärts ein wenig schlechter sind als vorwärts.»
«Zusammen mit Vassilis [Papadopoulos] haben wir später festgestellt, dass dies ein tiefgreifendes Merkmal der Sprache ist und dass es sich um ein ganz allgemeines neues Phänomen handelt, das eng mit dem Ablauf der Zeit, der Intelligenz und dem Begriff der Kausalität zusammenhängt. Ziemlich cool für ein Theaterprojekt!»
Honglers Begeisterung für diese Arbeit rührt zu einem guten Teil von den unerwarteten Überraschungen her, die auf dem Weg dorthin auftraten: «Nur die Zeit konnte zeigen, dass etwas, das als Theaterprojekt begann, uns am Ende neue Werkzeuge geben würde, um so viele Dinge über die Welt zu verstehen.»