Microsoft’s GUI-Actor: KI-Agenten navigieren Bildschirme ohne Koordinaten
In der Welt der künstlichen Intelligenz (KI) ist die Interaktion mit grafischen Benutzeroberflächen (GUIs) eine der größten Herausforderungen. Microsoft hat mit dem GUI-Actor ein innovatives System entwickelt, das es KI-Agenten ermöglicht, Computeroberflächen zu navigieren, ohne auf präzise Pixelkoordinaten angewiesen zu sein. Stattdessen nutzt es Aufmerksamkeitsmechanismen, um die Interaktion zu optimieren.
Einführung in den GUI-Actor
Der GUI-Actor ist eine auf Visual Language Models (VLM) basierende Methode, die eine koordinatenfreie GUI-Grundierung ermöglicht. In der Vergangenheit war die visuelle Grundierung, also die Lokalisierung des passenden Bildschirmbereichs zur Ausführung von Aktionen, eine komplexe Aufgabe. Die meisten bestehenden Ansätze konzentrieren sich auf die Generierung von Koordinaten, was jedoch mit verschiedenen Herausforderungen verbunden ist, wie z.B. schwacher räumlich-semantischer Ausrichtung und Schwierigkeiten bei der Handhabung mehrdeutiger Überwachungsziele.
Die Funktionsweise des GUI-Actors
Der GUI-Actor führt ein neuartiges Konzept ein: einen auf Aufmerksamkeit basierenden Aktionskopf, der es dem Modell ermöglicht, ein dediziertes ACTOR-Token mit allen relevanten visuellen Patch-Token zu verbinden. Dies geschieht in einem einzigen Vorwärtsdurchlauf, wodurch das Modell in der Lage ist, eine oder mehrere Aktionsregionen vorzuschlagen. Um die plausibelste Aktionsregion auszuwählen, wurde ein Verifier entwickelt, der die vorgeschlagenen Regionen bewertet.
Leistungsfähigkeit und Ergebnisse
Um die Leistungsfähigkeit des GUI-Actor zu demonstrieren, wurden umfangreiche Experimente durchgeführt. Die Ergebnisse zeigen, dass der GUI-Actor die bisherigen Methoden in mehreren Benchmark-Tests zur GUI-Aktionsgrundierung übertrifft. Besonders bemerkenswert ist, dass die Version GUI-Actor-7B sogar die UI-TARS-72B übertrifft und dabei Punktzahlen von 40,7 mit Qwen2-VL und 44,6 mit Qwen2.5-VL als Backbone erreicht.
Vorteile der neuen Methode
Ein entscheidender Vorteil des GUI-Actor ist die Möglichkeit, nur den neu eingeführten Aktionskopf zu optimieren, während das VLM-Backbone eingefroren bleibt. Dies erfordert nur etwa 100 Millionen Parameter für das 7B-Modell und ermöglicht dennoch eine Leistung, die mit der vorherigen Spitzentechnologie vergleichbar ist. Dies zeigt, dass der GUI-Actor die zugrunde liegende VLM mit effektiven Grundierungsfähigkeiten ausstatten kann, ohne deren allgemeine Stärken zu beeinträchtigen.
Fazit
Der GUI-Actor von Microsoft stellt einen bedeutenden Fortschritt in der Entwicklung von KI-Agenten dar, die in der Lage sind, mit grafischen Benutzeroberflächen zu interagieren. Durch den Einsatz von Aufmerksamkeitsmechanismen anstelle von Koordinaten wird die Interaktion nicht nur effizienter, sondern auch flexibler, was zu einer besseren Anpassungsfähigkeit an verschiedene Bildschirmauflösungen und -layouts führt.
Quellenliste:
- Quelle: GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
- Projektseite des GUI-Actor
- GitHub-Repository des GUI-Actor
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!