Artikelbild für den Artikel: Wie weit können sich Reasoning-Modelle skalieren?

Wie weit können sich Reasoning-Modelle skalieren?

OpenAI’s o3 Reasoning-Modell hat sich in kurzer Zeit erheblich verbessert, könnte jedoch bald an Skalierungsgrenzen stoßen. Aktuelle Reasoning-Modelle wie o3 könnten schnell mit dem allgemeinen Wachstum der Trainingsressourcen (~4× pro Jahr) konvergieren, nachdem sie zunächst schnell skaliert wurden.

Einführung in die Skalierung von Reasoning-Modellen

Die Reasoning-Modelle, zu denen auch OpenAI’s o3 gehört, sind weniger als ein Jahr alt, haben jedoch bereits rapide Fortschritte in ihren Fähigkeiten gemacht. OpenAI-Forscher sind optimistisch, dass dieser Fortschritt anhalten wird. Doch wie viel weiter können die Techniken, die zur Ausbildung von Reasoning-Modellen verwendet werden, skalieren?

Aktuelle Fortschritte und Herausforderungen

Nach eingehender Betrachtung der Frage scheint es Spielraum für eine weitere Skalierung des Reasoning-Trainings zu geben, jedoch ist es unwahrscheinlich, dass OpenAI oder andere führende KI-Entwickler in der Lage sind, um viele Größenordnungen zu skalieren. Wenn das Reasoning-Training weiterhin um 10× alle paar Monate skaliert, ähnlich dem Sprung von o1 zu o3, wird es bald an die Grenzen der gesamten Trainingsressourcen stoßen, möglicherweise innerhalb eines Jahres. An diesem Punkt wird die Skalierungsrate langsamer und konvergiert mit der allgemeinen Wachstumsrate im Training von etwa 4× pro Jahr.

Wie viel Rechenleistung wird für das Training von Reasoning-Modellen verwendet?

Die Reasoning-Modelle von OpenAI und anderen wurden aus traditionellen LLMs entwickelt, die auf einem riesigen Volumen menschlicher Daten trainiert wurden, in einem Prozess, der als „Pre-Training“ bekannt ist. Danach durchlaufen sie eine Phase des Reinforcement Learning, in der sie Feedback zu ihren Lösungen für schwierige Probleme erhalten, was ihre Reasoning-Fähigkeiten verbessert. Leider sind öffentliche Informationen über die Menge an Rechenleistung, die für das Reasoning-Training verwendet wird, spärlich, trotz ihrer weit verbreiteten Anwendung in der KI-Branche.

Einblicke in die Skalierung von o1 zu o3

OpenAI hat eine Grafik veröffentlicht, die die Leistungen von o3 und o1 auf dem AIME-Benchmark zeigt, die gegen die wahrscheinlich verwendete Menge an Rechenleistung im Reasoning-Training aufgetragen ist. Diese zeigt, dass die endgültige Version von o3 mit 10× so viel Rechenleistung trainiert wurde wie o1.

Einblicke von DeepSeek-R1

Die meisten führenden KI-Entwickler haben relativ wenig über die Ausbildung von Reasoning-Modellen preisgegeben. Eine Ausnahme ist DeepSeek und ihr R1 Reasoning-Modell. Schätzungen zeigen, dass DeepSeek-R1 während des Reinforcement Learning Reasoning-Trainings etwa ~6e23 FLOP (Kosten: ~$1 Million) verwendet hat, was etwa 20% der Kosten für das Pre-Training des Basis-Modells DeepSeek-V3 entspricht.

Was bedeutet die Skalierung der Rechenleistung für den Fortschritt in der KI?

Die aktuelle Rechenleistung von Reasoning-Modellen hat wichtige Implikationen für den kurzfristigen Fortschritt in der KI. Wenn die Skalierung des Reasoning-Trainings noch relativ niedrig ist, könnten wir eine rasche kurzfristige Skalierung sowie tatsächliche Fähigkeiten sehen. o3 ist sowohl eine 10× Skalierung im Vergleich zu o1 als auch erheblich leistungsfähiger als o1.

Schlussfolgerungen und Ausblick

Insgesamt ist unklar, wie weit Reasoning-Modelle skalieren können. Es gibt viele Unsicherheiten, und die Skalierung könnte aufgrund von Datenbeschränkungen ins Stocken geraten. Dennoch sind die Forscher bei OpenAI optimistisch, dass sie Reasoning-Modelle schnell skalieren und weitere Verbesserungen erzielen können.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar