GEMINI 2.5 FÜR ROBOTIK UND EMBODIED INTELLIGENCE

Google hat detailliert beschrieben, wie die Modelle Gemini 2.5 Pro und Flash lokal auf Robotern betrieben werden können, um Szenen zu kennzeichnen, Aufgabenpläne zu erstellen und Sprachbefehle in ausführbare Aktionen über die Live-API zu übersetzen.

Einführung in Gemini 2.5

Die neueste Generation der Gemini-Modelle, 2.5 Pro und Flash, eröffnet neue Möglichkeiten in der Robotik. Ihre fortschrittlichen Codierungs-, Denk- und multimodalen Fähigkeiten, kombiniert mit räumlichem Verständnis, bilden die Grundlage für die nächste Generation interaktiver und intelligenter Roboter.

Praktische Anwendungen von Gemini 2.5

In diesem Artikel werden wir untersuchen, wie Entwickler Gemini 2.5 nutzen können, um anspruchsvolle Robotikanwendungen zu erstellen. Wir geben praktische Beispiele mit Eingabeaufforderungen, um die Nutzung von Gemini 2.5 und der Live-API zu demonstrieren:

Semantisches Szenenverständnis für komplexe Abfragen: Identifizieren und Kennzeichnen von Objekten aus Roboterkamerabildern. Verstehen komplexer Abfragen durch multimodales Denken.
Kombination von räumlichem Denken mit Code-Generierung zur Steuerung von Robotern: Verwenden der Roboterschnittstelle, um Funktionen aufzurufen und Aufgabenpläne zum Leben zu erwecken.
Interaktive Robotikanwendungen mit der Live-API: Sprachbefehle in ausführbare Roboterpläne umwandeln.

Semantisches Szenenverständnis für komplexe Abfragen

Das Denken über die physische Welt steht im Mittelpunkt der allgemeinen und robusten Steuerung. Gemini 2.5 stellt einen Schritt in diese Richtung dar mit seiner verbesserten Fähigkeit, multimodal zu denken. Hier sind zwei Beispiele, die die Fähigkeiten von Gemini zur Objektverfolgung und -erkennung nutzen.

Beispiel 1

Gemini 2.5 kann Objekte in der Szene basierend auf detaillierten Sprachbeschreibungen lokalisieren. Eingabeaufforderung: “Zeige auf einen Behälter im Regal, der nachgefüllt werden muss.” Die Antwort sollte im JSON-Format erfolgen: [{"point": , "label": }, ...].

Beispiel 2

Gemini 2.5 kann kleine Objekte in der Szene lokalisieren und deren Zustände schätzen. Eingabeaufforderung: “Zeige auf alle runden Messgeräte.” Die Antwort sollte ebenfalls im JSON-Format erfolgen: [{"point": , "label": }, ...].

Über die objektzentrierte Wahrnehmung hinaus

Gemini 2.5 kann mehrere Objekte über die Zeit hinweg genau verfolgen und offene Konzepte wie „eine Verschüttung“ erkennen. Es kann auch in der Form von Trajektorienvorhersagen aufgefordert werden.

Räumliches Verständnis und Code-Generierung zur Steuerung von Robotern

Gemini 2.5 kann sein zugrunde liegendes räumliches Verständnis nutzen, um Roboter durch Code-Generierung zu steuern. Indem Gemini 2.5 mit einer Roboterschnittstelle ausgestattet wird, kann es fortschrittliche Fähigkeiten in der Szenenverständnis, Objektmanipulation und Code-Schreibung kombinieren, um Aufgaben ohne zusätzliche Schulung auszuführen.

Interaktive Robotikanwendungen mit der Live-API

Die Live-API für Echtzeit-Streaming wurde kürzlich eingeführt und kann verwendet werden, um interaktive Anwendungen zu erstellen, die es Menschen ermöglichen, Roboter mit ihrer Stimme zu steuern. Intuitive Mensch-Roboter-Interaktion ist ein wichtiger Aspekt, um Roboter einfach und sicher zu nutzen.

Sicherheit

Die Modelle 2.5 Pro und 2.5 Flash zeigen eine robuste Leistung in den ASIMOV-Multimodal- und Physical Injury-Benchmarks, die zusammen mit dem Gemini Robotics-Technikbericht veröffentlicht wurden.

Wie Gemini heute für Robotik verwendet wird

Im März haben wir das Gemini Robotics-ER-Modell veröffentlicht und sind bereits inspiriert, wie die Community es für Robotikanwendungen nutzt. Beispiele von interaktiven Anwendungen, Wahrnehmung, Planung und Funktionsaufrufen stammen von unseren vertrauenswürdigen Testern wie Agile Robots, Agility Robotics, Boston Dynamics und Enchanted Tools.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

GEMINI 2.5 FÜR ROBOTIK UND EMBODIED INTELLIGENCE

Einführung in Gemini 2.5

Praktische Anwendungen von Gemini 2.5