Einführung von SWE-1.5: Unser schnelles Agentenmodell

Heute stellen wir SWE-1.5 vor, das neueste Mitglied unserer Modellfamilie, das für die Softwareentwicklung optimiert ist. SWE-1.5 ist ein Modell mit hunderten von Milliarden Parametern, das eine nahezu SOTA (State of the Art) Leistung beim Programmieren erreicht. Zudem setzt es einen neuen Geschwindigkeitsstandard: In Zusammenarbeit mit Cerebras wird es mit bis zu 950 Token pro Sekunde betrieben – das ist sechsmal schneller als Haiku 4.5 und dreizehnmal schneller als Sonnet 4.5. SWE-1.5 ist jetzt auf Windsurf verfügbar!

Motivation

Entwickler sollten nicht zwischen einer KI wählen müssen, die schnell denkt, und einer, die gut denkt. Diese scheinbar unvermeidliche Abwägung in der KI-Programmierung haben wir kontinuierlich angegangen. Am 16. Oktober haben wir SWE-grep veröffentlicht, ein agentisches Modell, das für schnelles Kontextengineering trainiert wurde, ohne die Leistung zu opfern. Jetzt hat SWE-1.5 die gesamte Infrastruktur – Modell, Inferenz und Agenten-Harness – als einheitliches System neu konzipiert, das sowohl für Geschwindigkeit als auch für Intelligenz optimiert ist.

Die Agent-Modell-Schnittstelle

Unser Ziel als Agentenlabor ist es nicht, ein Modell isoliert zu trainieren, sondern einen vollständigen Agenten zu entwickeln. Oft übersehene Komponenten sind das Agenten-Harness, der Inferenzanbieter und die End-to-End-Nutzererfahrung. Der Entwicklungsprozess für SWE-1.5 umfasste:

End-to-End-Reinforcement Learning (RL) in realen Aufgabenumgebungen mit unserem benutzerdefinierten Cascade-Agenten-Harness auf einem führenden Open-Source-Basismodell.
Kontinuierliche Iteration beim Modelltraining, Verbesserungen des Harness, Tools und Prompt Engineering.
Neuschreibung zentraler Tools und Systeme von Grund auf, wenn nötig, um bessere Geschwindigkeit und Genauigkeit zu erreichen.
Starke Abhängigkeit von interner Nutzung zur Steuerung von Tuning-Entscheidungen.
Bereitstellung mehrerer Beta-Versionen des Modells (unter dem Namen “Falcon Alpha”) und Überwachung der Leistungskennzahlen.

RL-Coding-Umgebungen

Wir glauben, dass die Qualität der Programmierumgebungen in RL-Aufgaben der wichtigste Faktor für die nachgelagerte Modellleistung ist. Wir haben folgende Probleme mit häufig verwendeten Programmierumgebungen festgestellt:

Enger Aufgabenverteilung: Viele Labore versuchen, SWE-Bench zu optimieren, das eine sehr enge Auswahl an Repositories und Aufgabentypen bietet.
Ignorieren weicher Faktoren: Bei der ausschließlichen Verwendung von verifizierbaren Korrektheitsbelohnungen wie Unit-Tests werden die Modelle nicht incentiviert, qualitativ hochwertigen Code zu schreiben.

Um diese Probleme anzugehen, haben wir einen Datensatz manuell erstellt, der die breite Verteilung realer Aufgaben und Sprachen widerspiegelt. Wir haben stark in die Erstellung unserer eigenen Bewertungen investiert, basierend auf unseren Erkenntnissen aus der Arbeit an Devin und dem Junior-Dev Benchmark.

Training & Infrastruktur

SWE-1.5 wird auf unserem hochmodernen Cluster von tausenden von GB200 NVL72-Chips trainiert. Wir glauben, dass SWE-1.5 das erste öffentliche Produktionsmodell ist, das auf der neuen GB200-Generation trainiert wurde. Die ersten Monate auf den neuen Chips waren eine Herausforderung, die robustes Health-Checking und fehlertolerantes Training erforderte.

Öffentliche Bewertungen

Die Leistung bei Programmierbenchmarks ist oft nicht repräsentativ für die reale Erfahrung mit einem Agenten, weshalb wir 2024 aufgehört haben, SWE-Bench-Zahlen zu berichten. Dennoch ist es eine gute gemeinsame Basis für den Vergleich der Fähigkeiten eines Modells. SWE-1.5 erreichte bei der Verwendung des fortgeschritteneren SWE-Bench Pro-Benchmarks von Scale AI eine nahezu grenzwertige Leistung.

Optimierung für Geschwindigkeit

Unser Ziel für SWE-1.5 war es, die schnellste Programmieragentenerfahrung zu schaffen. Dazu haben wir mit Cerebras, dem schnellsten Inferenzanbieter, zusammengearbeitet, um SWE-1.5 bereitzustellen und zu optimieren. Dies umfasste das Training eines optimierten Entwurfsmodells für schnellere spekulative Dekodierung.

Was kommt als Nächstes?

SWE-1.5 beweist, dass man nicht zwischen Geschwindigkeit und Intelligenz wählen muss. Durch die gemeinsame Entwicklung des Modells, des Inferenzsystems und des Agenten-Harness als ein einheitliches System haben wir eine Leistung auf Grenzniveau bei der dreizehnfachen Geschwindigkeit von Sonnet 4.5 erreicht. SWE-1.5 ist ein großer Schritt nach vorne, aber wir freuen uns darauf, die Grenzen des Möglichen in zukünftigen Iterationen weiter zu verschieben.

Sie können SWE-1.5 ab sofort auf Windsurf ausprobieren!

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Einführung von SWE-1.5: Unser schnelles Agentenmodell

Motivation

Die Agent-Modell-Schnittstelle

RL-Coding-Umgebungen

Training & Infrastruktur

Öffentliche Bewertungen

Optimierung für Geschwindigkeit

Was kommt als Nächstes?

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Motivation

Die Agent-Modell-Schnittstelle

RL-Coding-Umgebungen

Training & Infrastruktur

Öffentliche Bewertungen

Optimierung für Geschwindigkeit

Was kommt als Nächstes?

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter