Artikelbild für den Artikel: AGI ist nicht multimodal

AGI ist nicht multimodal

Die multimodale Herangehensweise wird nicht zu einer menschenähnlichen AGI führen. Wahre AGI benötigt ein physisches Verständnis der Welt, da viele Probleme nicht in ein Problem der Symbolmanipulation umgewandelt werden können.

Einführung

Die jüngsten Erfolge generativer KI-Modelle haben einige dazu verleitet zu glauben, dass AGI (Artificial General Intelligence) unmittelbar bevorsteht. Diese Modelle scheinen das Wesen menschlicher Intelligenz zu erfassen, widersprechen jedoch unseren grundlegendsten Intuitionen darüber. Sie sind nicht als durchdachte Lösungen für das Problem der Intelligenz entstanden, sondern weil sie effektiv auf der bereits vorhandenen Hardware skaliert wurden. Verführt von den Früchten dieser Skalierung glauben einige, dass dies einen klaren Weg zur AGI bietet. Ein emblematischer Fall ist der multimodale Ansatz, bei dem massive modulare Netzwerke für eine Vielzahl von Modalitäten optimiert werden, die zusammen allgemein erscheinen. Ich argumentiere jedoch, dass diese Strategie kurzfristig sicher scheitern wird; sie wird nicht zu einer menschenähnlichen AGI führen, die beispielsweise sensorimotorisches Denken, Bewegungsplanung und soziale Koordination durchführen kann.

Warum wir die Welt brauchen

Wahre AGI benötigt ein physisches Verständnis der Welt, da viele Probleme nicht in ein Problem der Symbolmanipulation umgewandelt werden können. Es wurde von einigen vorgeschlagen, dass LLMs (Large Language Models) ein Modell der Welt durch die Vorhersage des nächsten Tokens lernen, aber es ist wahrscheinlicher, dass LLMs eine Sammlung von Heuristiken lernen, um Tokens vorherzusagen. Dies hinterlässt ihnen ein oberflächliches Verständnis der Realität und trägt zu falschen Eindrücken ihrer Intelligenz bei.

Die Illusion der Intelligenz

Das überraschendste Ergebnis des Ziels, das nächste Token vorherzusagen, ist, dass es KI-Modelle hervorbringt, die ein zutiefst menschenähnliches Verständnis der Welt widerspiegeln, obwohl sie diese nie so beobachtet haben wie wir. Dieses Ergebnis hat zu Verwirrung darüber geführt, was es bedeutet, Sprache und sogar die Welt zu verstehen – etwas, das wir lange als Voraussetzung für das Verständnis von Sprache geglaubt haben. Eine Erklärung für die Fähigkeiten von LLMs stammt aus einer aufkommenden Theorie, die vorschlägt, dass sie Modelle der Welt durch die Vorhersage des nächsten Tokens induzieren.

Die Grenzen der multimodalen Modelle

Ein zentrales Problem bei multimodalen Modellen ist, dass sie oft die tiefen Verbindungen zwischen den Modalitäten unnötig trennen, was das Problem der Konzeptsynthetisierung noch schwieriger macht. In der Praxis beinhaltet das Vereinigen von Modalitäten oft, dass spezielle neuronale Module für jede Modalität vortrainiert und dann in einen gemeinsamen Einbettungsraum zusammengeführt werden. Diese Ansätze vernachlässigen die komplexen Beziehungen, die zwischen Modalitäten existieren können.

Die Rolle der menschlichen Intuition

Die wahre Frage ist, wie wir Suttons Bittere Lektion in der Entwicklung von AGI berücksichtigen können. Der Ansatz der Skalierung hat bei LLMs und LVMs (Large Vision Models) funktioniert, weil wir natürliche Ablagerungen von Text- und Bilddaten hatten. Eine analoge Anwendung der Skalierung auf AGI würde jedoch Formen von Embodiment-Daten erfordern, die wir einfach nicht haben. Eine Lösung für dieses Datenmangelproblem könnte darin bestehen, das generative Modellierungsparadigma auf multimodale Modellierung zu erweitern.

Fazit

Die Gesamtversprechen des Skalierungsmaximalismus ist, dass eine Frankenstein-AGI aus allgemeinen Modellen enger Bereiche zusammengenäht werden kann. Ich argumentiere, dass es äußerst unwahrscheinlich ist, dass dies zu einer AGI führt, die sich in ihrer Intelligenz vollständig anfühlt. Wenn wir die Effizienz der modalitätsspezifischen Verarbeitung weiterhin nutzen wollen, müssen wir absichtlich darüber nachdenken, wie Modalitäten vereint werden.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar