Infinite Tool Use: Die Zukunft der Sprachmodelle

In der Welt der Künstlichen Intelligenz und insbesondere bei großen Sprachmodellen (LLMs) gibt es einen klaren Trend hin zu einer verbesserten Nutzung von Werkzeugen. Der folgende Artikel beleuchtet, wie das Paradigma der Werkzeugnutzung in verschiedenen Bereichen von Vorteil sein kann und welche praktischen Anwendungen sich daraus ergeben.

Einführung

Große Sprachmodelle sollten niemals etwas anderes als Werkzeugaufrufe und deren Argumente ausgeben. Dieses Konzept ermöglicht es den Modellen, ihre Intelligenz auf effizientere, domänenspezifische Programme auszulagern. Durch die ausschließliche Arbeit mit Werkzeugen kann das Modell den spezifischen, instanziierten Zustand dessen, was es tut, und seine Ziele besser verwalten.

Beispiele für Werkzeugnutzung

Die Vorteile der unendlichen Werkzeugnutzung werden am besten durch konkrete Beispiele verdeutlicht.

Textbearbeitung

Hier ist, wie ich diesen Artikel bisher geschrieben habe: Ich hatte eine Idee und notierte sie in einigen Stichpunkten. Dann schrieb ich die Einleitung. Während ich das tat, sprang ich ans Ende des Artikels, fügte einige weitere Stichpunkte hinzu und bearbeitete andere. Ich begann, diesen Abschnitt zu schreiben, unterbrach ihn, um eine Idee über die Architektur solcher Modelle aufzuschreiben, und kam dann zurück. Ich stellte fest, dass ich diesen Abschnitt neu schreiben sollte, begann damit, bearbeitete die Einleitung, um sie anzupassen, und hier sind wir. Ich bin noch nicht einmal halb fertig mit dem Artikel und bin mir sicher, dass ich bereits mehrere Schritte vergessen habe, die ich unternommen habe.

Im Gegensatz dazu generiert ein LLM derzeit Text nur vorwärts. Unabhängig davon, wie gut es ist, wird es Fehler machen, insbesondere in Out-of-Distribution (OOD)-Bereichen. Die Vorwärtsgenerierung macht die Multi-Resolution-Generierung viel schwieriger. Ich als Mensch kann Hunderte von Versionen desselben Artikels erstellen, einen Satz hier und da bearbeiten, eine Idee als Stichpunkt aufschreiben, etwas Dummes löschen, einen Stichpunkt in einen vollständigen Abschnitt umwandeln usw. Das bedeutet, dass ich Aktionen auf verschiedenen Ebenen der Spezifität miteinander verweben kann. Stellen Sie sich vor, wie verwirrend es wäre, all diese Änderungen gleichzeitig im Gedächtnis zu behalten!

Die Bearbeitung über externe Werkzeuge ermöglicht ein explizites, selektives Vergessen. LLMs müssen entweder von den allgemeinsten zu den spezifischsten Punkten in einer sehr begrenzten Weise generieren oder ein verwirrendes Durcheinander von Änderungen und Neuausgaben erzeugen, die keine echten Löschungen sind. Während wir ein LLM trainieren können, um zurückzuverfolgen und Fehler in Form von Reasoning RL zu korrigieren, sind die Fehler selbst in dessen Ausgabe verankert, was es schwierig macht, lange, korrekte Ausgaben zu produzieren.

3D-Generierung

Die 3D-Generierung steht vor ähnlichen Herausforderungen wie die Textgenerierung. Ein LLM könnte 3D-Objekte durch Code erstellen, indem es Zugriff auf CAD-Bibliotheken hat. Ein solches Werkzeug würde es dem Modell ermöglichen, 3D-Objekte zu generieren, indem es die Objekte betrachtet, die es erstellt, und sie bearbeitet. Dies würde die Vorteile der Textbearbeitung auf die 3D-Generierung übertragen.

Videoverstehen

Ein LLM mit vollem Aufmerksamkeitsspektrum ist für mehrtägige Videos unbrauchbar, da es viel zu ineffizient ist. Ein LLM mit begrenztem Kontextfenster, das jedoch mit Werkzeugen ausgestattet ist, kann Teile des Videos erneut ansehen, um zu verstehen, was es benötigt, Notizen schreiben, bearbeiten und wieder besuchen, ohne dass die Kosten explodieren.

AI-Sicherheit

Die vollständige Bearbeitung des Prozesses (mit Versionskontrolle) hat auch Sicherheitsvorteile. Wenn das Modell mit schwierigen Aufgaben konfrontiert wird, muss es die Werkzeuge, die ihm zur Verfügung stehen, klar und strukturiert nutzen. Dies wird wahrscheinlich die Genauigkeit und Lesbarkeit der Ausgaben erhöhen.

Schlussfolgerung

Das Werkzeugnutzungsparadigma ist bereits in vollem Gange, aber es ist noch auf sehr kurze Kontexte und nur Teile der Modellausgabe beschränkt. Ich schlage vor, alle Interaktionen mit der externen Welt durch Werkzeugnutzung zu gestalten und diese Nutzung auf immer längere Kontexte auszuweiten, indem Modelle verwendet werden, die eine unvollkommene Erinnerung an die gesamte Sequenz gegen konstante Kosten pro Schritt eintauschen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Infinite Tool Use: Die Zukunft der Sprachmodelle

Einführung