MiniMax’s Hailuo 02 übertrifft Google Veo 3 in Benutzerbenchmarks zu deutlich niedrigeren Videokosten
MiniMax hat mit Hailuo 02 die zweite Generation seines Video-AI-Modells vorgestellt, das bedeutende Verbesserungen in Bezug auf Leistung und Preis bietet. Das neue Modell nutzt eine Architektur namens Noise-aware Compute Redistribution (NCR), die die Effizienz von Training und Inferenz um den Faktor 2,5 steigert.
Die Neuerungen von Hailuo 02
Die NCR-Architektur von Hailuo 02 behandelt lange Videosequenzen unterschiedlich, je nach Trainingsphase. Zu Beginn des Trainings, wenn künstliches Rauschen stark in die Daten eingeführt wird, werden Videos so stark wie möglich komprimiert. Später, wenn die Trainingsvideos klarer sind, verarbeitet das Modell sie in voller Auflösung. MiniMax hebt die neue NCR-Architektur als Schlüssel zu Hailuo 02 hervor, hat jedoch noch keine technischen Details veröffentlicht.
Verbesserte Parameter und Trainingsdaten
Im Vergleich zur vorherigen Version hat Hailuo 02 dreimal mehr Parameter und viermal mehr Trainingsdaten. MiniMax betont auch Verbesserungen in der Datenqualität und -vielfalt, ohne jedoch genaue Parameterzahlen oder Datensatzgrößen bekannt zu geben. Laut MiniMax zeigt Hailuo 02 deutliche Fortschritte im Umgang mit komplexen Eingabeaufforderungen und der Simulation physikalischer Prozesse. Das Unternehmen behauptet, dass es derzeit das einzige Modell ist, das in der Lage ist, komplexe Szenen wie Gymnastik-Routinen genau zu generieren.
Verfügbarkeit und Kosten
Hailuo 02 ist in drei Varianten erhältlich: 768p für sechs Sekunden, 768p für zehn Sekunden und 1080p für sechs Sekunden. Das vorherige Modell war auf 720p, sechs Sekunden Videos bei 25 fps beschränkt. In der Artificial Analysis Video Arena, einem Benchmark, in dem Benutzer Videos von konkurrierenden AI-Modellen bewerten, belegte Hailuo 02 den zweiten Platz in der Kategorie Bild-zu-Video, nur hinter Bytedance’s Seedance und vor dem viel gehypten Google Veo 3. Diese Version von Veo 3 unterstützt jedoch keinen Ton, was einen wesentlichen Teil ihrer Attraktivität ausmacht.
Benutzerbenchmarks und Kostenvergleich
In Benutzerbenchmarks übertrifft Hailuo 02 Google Veo 3, obwohl Veo auch die native Audioerzeugung unterstützt. Seit dem Demo-Start im August letzten Jahres haben die Nutzer über 3,7 Milliarden Videos mit der Hailuo-Plattform erstellt. Das Unternehmen beschreibt den anfänglichen Rollout als sehr zufällig, sagt jedoch, dass es schnell große Aufmerksamkeit von Kreativen weltweit auf sich zog.
Das Modell kann über eine Weboberfläche, eine mobile App oder eine API aufgerufen werden. Für API-Nutzer kostet die Erstellung eines sechs Sekunden langen 768p-Videos 0,28 US-Dollar, während eine 1080p-Version 0,49 US-Dollar kostet. Zum Vergleich: Die Produktion eines acht Sekunden langen 1080p-Videos mit Google Veo 3 kann je nach Plan rund 3 US-Dollar kosten.
Zukünftige Entwicklungen
MiniMax arbeitet daran, die Generierungsgeschwindigkeit und Stabilität zu verbessern und neue Funktionen über die aktuellen Text-zu-Video- und Bild-zu-Video-Optionen hinaus hinzuzufügen. Konkurrenzplattformen wie Runway bieten bereits fortschrittlichere Funktionen, wie z. B. Tracking-Shots. Die Veröffentlichung von Hailuo 02 ist Teil der „MiniMax Week“, einer fünf-tägigen Veranstaltung, während der das chinesische Startup auch ein Open-Source-Sprachmodell, MiniMax-M1, vorgestellt hat, das mit Parameterzahlen und einem technischen Papier ausgestattet ist. Im Gegensatz dazu bleiben technische Details zur Trainingsarchitektur von Hailuo 02 ungenannt.
Fazit
Hailuo 02 von MiniMax stellt einen bedeutenden Fortschritt in der Video-KI-Technologie dar, insbesondere in Bezug auf Kosten und Leistung. Mit seiner neuen Architektur und den verbesserten Parametern ist es ein ernstzunehmender Mitbewerber im Bereich der KI-gestützten Videoproduktion.
Quellenliste:
- Quelle: MINIMAX’S HAILUO 02 TOPS GOOGLE VEO 3 IN USER BENCHMARKS AT MUCH LOWER VIDEO COSTS
- MiniMax introduces AI models with record context length for agents with long-term memory
- MiniMax-M1 comes close to Gemini 2.5 pro efficiency when handling large context windows
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!