GEMINI 2.5 FÜR ROBOTIK UND EMBODIED INTELLIGENCE
Google hat detailliert beschrieben, wie die Modelle Gemini 2.5 Pro und Flash lokal auf Robotern betrieben werden können, um Szenen zu kennzeichnen, Aufgabenpläne zu erstellen und Sprachbefehle in ausführbare Aktionen über die Live-API zu übersetzen.
Einführung in Gemini 2.5
Die neueste Generation der Gemini-Modelle, 2.5 Pro und Flash, eröffnet neue Möglichkeiten in der Robotik. Ihre fortschrittlichen Codierungs-, Denk- und multimodalen Fähigkeiten, kombiniert mit räumlichem Verständnis, bilden die Grundlage für die nächste Generation interaktiver und intelligenter Roboter.
Praktische Anwendungen von Gemini 2.5
In diesem Artikel werden wir untersuchen, wie Entwickler Gemini 2.5 nutzen können, um anspruchsvolle Robotikanwendungen zu erstellen. Wir geben praktische Beispiele mit Eingabeaufforderungen, um die Nutzung von Gemini 2.5 und der Live-API zu demonstrieren:
- Semantisches Szenenverständnis für komplexe Abfragen: Identifizieren und Kennzeichnen von Objekten aus Roboterkamerabildern. Verstehen komplexer Abfragen durch multimodales Denken.
- Kombination von räumlichem Denken mit Code-Generierung zur Steuerung von Robotern: Verwenden der Roboterschnittstelle, um Funktionen aufzurufen und Aufgabenpläne zum Leben zu erwecken.
- Interaktive Robotikanwendungen mit der Live-API: Sprachbefehle in ausführbare Roboterpläne umwandeln.
Semantisches Szenenverständnis für komplexe Abfragen
Das Denken über die physische Welt steht im Mittelpunkt der allgemeinen und robusten Steuerung. Gemini 2.5 stellt einen Schritt in diese Richtung dar mit seiner verbesserten Fähigkeit, multimodal zu denken. Hier sind zwei Beispiele, die die Fähigkeiten von Gemini zur Objektverfolgung und -erkennung nutzen.
Beispiel 1
Gemini 2.5 kann Objekte in der Szene basierend auf detaillierten Sprachbeschreibungen lokalisieren. Eingabeaufforderung: “Zeige auf einen Behälter im Regal, der nachgefüllt werden muss.” Die Antwort sollte im JSON-Format erfolgen: [{"point":
.
Beispiel 2
Gemini 2.5 kann kleine Objekte in der Szene lokalisieren und deren Zustände schätzen. Eingabeaufforderung: “Zeige auf alle runden Messgeräte.” Die Antwort sollte ebenfalls im JSON-Format erfolgen: [{"point":
.
Über die objektzentrierte Wahrnehmung hinaus
Gemini 2.5 kann mehrere Objekte über die Zeit hinweg genau verfolgen und offene Konzepte wie „eine Verschüttung“ erkennen. Es kann auch in der Form von Trajektorienvorhersagen aufgefordert werden.
Räumliches Verständnis und Code-Generierung zur Steuerung von Robotern
Gemini 2.5 kann sein zugrunde liegendes räumliches Verständnis nutzen, um Roboter durch Code-Generierung zu steuern. Indem Gemini 2.5 mit einer Roboterschnittstelle ausgestattet wird, kann es fortschrittliche Fähigkeiten in der Szenenverständnis, Objektmanipulation und Code-Schreibung kombinieren, um Aufgaben ohne zusätzliche Schulung auszuführen.
Interaktive Robotikanwendungen mit der Live-API
Die Live-API für Echtzeit-Streaming wurde kürzlich eingeführt und kann verwendet werden, um interaktive Anwendungen zu erstellen, die es Menschen ermöglichen, Roboter mit ihrer Stimme zu steuern. Intuitive Mensch-Roboter-Interaktion ist ein wichtiger Aspekt, um Roboter einfach und sicher zu nutzen.
Sicherheit
Die Modelle 2.5 Pro und 2.5 Flash zeigen eine robuste Leistung in den ASIMOV-Multimodal- und Physical Injury-Benchmarks, die zusammen mit dem Gemini Robotics-Technikbericht veröffentlicht wurden.
Wie Gemini heute für Robotik verwendet wird
Im März haben wir das Gemini Robotics-ER-Modell veröffentlicht und sind bereits inspiriert, wie die Community es für Robotikanwendungen nutzt. Beispiele von interaktiven Anwendungen, Wahrnehmung, Planung und Funktionsaufrufen stammen von unseren vertrauenswürdigen Testern wie Agile Robots, Agility Robotics, Boston Dynamics und Enchanted Tools.
Quellenliste:
- Quelle: GEMINI 2.5 FOR ON‑DEVICE ROBOTICS
- Gemini 2.5 Model Family Expands
- Live API Documentation
- Gemini Robotics ER Model
- ASIMOV Benchmark
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!