Neue Gewichte und Daten für Vision-Language-Action-Modelle
Impromptu VLA hat ein neues Dataset mit 80.000 kuratierten Fahrvideo-Clips eingeführt, um die Leistung von Vision-Language-Action-Modellen in unstrukturierten Szenarien zu verbessern.
Einführung in Impromptu VLA
Vision-Language-Action (VLA) Modelle für autonomes Fahren zeigen vielversprechende Ergebnisse, stoßen jedoch in unstrukturierten Randfällen häufig an ihre Grenzen. Dies liegt vor allem an einem Mangel an gezielten Benchmarks. Um diesem Problem entgegenzuwirken, wurde Impromptu VLA ins Leben gerufen. Unser Hauptbeitrag ist das Impromptu VLA Dataset: über 80.000 sorgfältig kuratierte Video-Clips, die aus über 2 Millionen Quell-Clips aus 8 Open-Source-Datensätzen gewonnen wurden. Dieses Dataset basiert auf unserer neuartigen Taxonomie von vier herausfordernden unstrukturierten Kategorien und bietet reichhaltige, planungsorientierte Frage-Antwort-Anmerkungen sowie Aktionsverläufe.
Leistungsverbesserungen durch das Impromptu VLA Dataset
Experimente zeigen, dass VLAs, die mit unserem Dataset trainiert wurden, erhebliche Leistungssteigerungen auf etablierten Benchmarks erzielen. Dies führt zu einer Verbesserung der NeuroNCAP-Werte und der Kollisionsraten und erreicht nahezu den Stand der Technik in der L2-Genauigkeit bei der offenen nuScenes-Trajektorienvorhersage. Darüber hinaus dient unser Q&A-Set als effektives Diagnosewerkzeug, das klare Verbesserungen der VLM in den Bereichen Wahrnehmung, Vorhersage und Planung aufzeigt.
Ergebnisse der offenen Trajektorienvorhersage
Die folgenden Ergebnisse zeigen die L2-Fehler (m) der offenen Trajektorienvorhersage auf dem nuScenes-Dataset:
Methode | 1s | 2s | 3s | Durchschnitt |
---|---|---|---|---|
GPT-4o | 0.28 | 0.93 | 2.02 | 1.07 |
Claude-3.5-Sonnet | 0.29 | 0.98 | 2.12 | 1.13 |
DriveVLM | 0.18 | 0.34 | 0.68 | 0.40 |
OmniDrive | 0.14 | 0.29 | 0.55 | 0.33 |
Verbesserungen bei NeuroNCAP
Die Verbesserungen sowohl bei der Gesamtbewertung von NeuroNCAP als auch bei der entscheidenden Reduzierung der Kollisionsraten deuten darauf hin, dass unser Dataset dem Modell hilft, ein nuancierteres Verständnis komplexer Straßeninteraktionen zu entwickeln, was zu robusteren und sichereren Fahrstrategien führt.
Video-Galerie
Die Videos vergleichen das Fahrverhalten der beiden Modelle in drei repräsentativen herausfordernden Szenarien: stationär, frontal und seitlich. Für jedes Szenario zeigt die linke Spalte das Verhalten des Basis-Modells, das auf nuScenes feinjustiert wurde. Die rechte Spalte zeigt die Leistung des Modells, das auf einem Teil unseres vorgeschlagenen Datasets trainiert und dann auf nuScenes feinjustiert wurde. Im Vergleich zum Basis-Modell kann das Modell, das unsere Daten verwendet, Fahrzeuge besser vermeiden, indem es abbiegt, langsamer wird usw.
Fazit
Insgesamt zeigt das Impromptu VLA Dataset vielversprechende Ergebnisse und stellt einen bedeutenden Fortschritt in der Entwicklung von Vision-Language-Action-Modellen für autonomes Fahren dar. Die Kombination aus umfangreichen Daten und gezielten Annotationsmethoden könnte die Grundlage für zukünftige Entwicklungen in diesem Bereich bilden.
Quellenliste:
- Quelle: NEW WEIGHTS AND DATA FOR VISION-LANGUAGE-ACTION MODELS
- Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
- Impromptu VLA Dataset
- Impromptu VLA Code
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!