Wie ich die höchste Punktzahl bei ARC-AGI erreichte: Python gegen Englisch
ARC-AGI ist ein Intelligenztest, der entwickelt wurde, um abstrakte Mustererkennung zu messen. In diesem Artikel bespreche ich, wie ich eine neue Höchstpunktzahl von 79,6 % bei ARC v2 erreicht habe.
Was ist ARC-AGI?
ARC-AGI ist ein Intelligenztest, der dazu dient, abstrakte Mustererkennung zu messen, ähnlich einem IQ-Test. Was diesen Test bemerkenswert macht, ist die auffällige Leistungsdifferenz zwischen Menschen und KI: Während Menschen diese Rätsel problemlos lösen können, haben LLMs (Large Language Models) erhebliche Schwierigkeiten damit. Der Test präsentiert neuartige Muster durch einige Beispiele und fordert den Testteilnehmer auf, die Sequenz fortzusetzen, wobei die Fähigkeit gemessen wird, grundlegende Regeln zu identifizieren und zu verallgemeinern, die sie zuvor noch nicht begegnet sind.
Herausforderungen für LLMs
Eine der größten Herausforderungen für LLMs ist ihre Unfähigkeit, über das hinaus zu generalisieren, wofür sie trainiert wurden. Dies wird besonders deutlich, wenn sie versuchen, einfache Rätsel zu lösen, die Menschen leicht bewältigen können. Jeremy Berman hebt hervor, dass LLMs zwar in der Lage sind, mathematische Probleme zu lösen, jedoch bei einfacheren Aufgaben, wie sie in ARC-AGI vorkommen, oft versagen. Diese Diskrepanz zeigt eine grundlegende Einschränkung der aktuellen LLMs: Sie haben Schwierigkeiten, über das Gelernte hinaus zu denken und zu verallgemeinern.
Bermans Methode zur Verbesserung der Punktzahl
Im Dezember letzten Jahres erreichte ich mit 53,6 % den ersten Platz bei ARC-AGI v1. Seitdem hat sich viel verändert. Die Denkmodelle, die damals verfügbar waren, waren noch nicht ausgereift. Zwei Wochen nach meiner Punktzahl übertraf o3 diese mit 75,7 %, wobei 200 US-Dollar pro Aufgabe ausgegeben wurden. Doch heute habe ich meine Rache genommen. Mein neuestes Programm erreicht eine neue Höchstpunktzahl von 79,6 % bei ARC v1 zu einem Preis von 8,42 US-Dollar pro Aufgabe (25-mal effizienter als o3) und setzt einen neuen Stand der Technik (SoTA) von 29,4 % bei ARC v2 (zuvor 25 %).
Ich verwendete die gleiche Evolutionäre Testzeit-Compute-Architektur wie meine v1-Lösung, ersetzte jedoch die Python-Funktionen durch einfache englische Anweisungen. Das System funktioniert, indem Grok-4 natürliche Sprachbefehle zur Lösung jeder Aufgabe generiert. Die Grok-4-Unteragenten testen diese Anweisungen anhand von Trainingsbeispielen und bewerten deren Genauigkeit. Die leistungsfähigsten Anweisungen erzeugen neue Generationen verfeinerter Lösungen. Durch mehrere evolutionäre Zyklen generiert das System bis zu 40 Kandidatenanweisungen mit 36 dynamischen Eingabeaufforderungen pro Aufgabe.
Die Rolle von Evolutionären Algorithmen
Die Evolutionären Algorithmen spielen eine zentrale Rolle in Bermans Ansatz. Für jede Aufgabe verwendet er ein Sprachmodell, um einfache englische Anweisungen zu generieren, die beschreiben, wie Eingabegitter in Ausgabegitter umgewandelt werden. Diese Anweisungen werden dann von einem Unteragentenmodell auf die Trainingsbeispiele angewendet, um die Fitness jeder Anweisung zu bewerten. Dies geschieht durch die Ermittlung, wie viele Trainingsbeispiele korrekt gelöst werden. Sobald eine Population von bewerteten Anweisungen vorliegt, beginnt der Evolutionsprozess durch zwei verschiedene Überarbeitungsstrategien: individuelle und gruppierte Revisionen.
Individuelle Revisionen nehmen eine einzelne Anweisung und deren generierte Ausgaben sowie die Grundwahrheit. Das Modell sieht sowohl die Rohgitter als auch eine ASCII-Differenz, die die Diskrepanzen hervorhebt. Mit diesem Feedback verfeinert es die Anweisung, um Fehler zu korrigieren. Gruppierte Revisionen kombinieren mehrere Anweisungen in einen einzigen Kontext und das Modell wird aufgefordert, eine neue Anweisung zu synthetisieren, die die erfolgreichen Elemente jeder Elternanweisung integriert.
Fazit
Die Herausforderungen, vor denen LLMs stehen, und die Methoden, die zur Verbesserung ihrer Leistung entwickelt werden, sind entscheidend für den Fortschritt in der KI-Forschung. Bermans Ansatz zeigt, dass die Verwendung von natürlicher Sprache anstelle von Programmiercode in bestimmten Kontexten zu signifikanten Verbesserungen führen kann. Die Erforschung von Evolutionären Algorithmen und deren Anwendung auf komplexe Probleme könnte der Schlüssel zur Erreichung von AGI (Artificial General Intelligence) sein.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!