Artikelbild für den Artikel: ScreenSuite: Die umfassendste Evaluationssuite für GUI-Agenten

ScreenSuite: Die umfassendste Evaluationssuite für GUI-Agenten

ScreenSuite ist eine neue Benchmarking-Suite von Hugging Face, die einen standardisierten Rahmen bietet, um Vision-Language-Modelle (VLMs) bei Aufgaben von GUI-basierten Agenten zu bewerten.

Einführung in ScreenSuite

In den letzten Wochen haben wir unermüdlich daran gearbeitet, GUI-Agenten offener, zugänglicher und einfacher zu integrieren. Auf diesem Weg haben wir die größte Benchmarking-Suite für die Leistung von GUI-Agenten geschaffen. Lassen Sie uns ScreenSuite vorstellen!

Was ist ein GUI-Agent?

Ein AI-Agent ist ein Roboter, der in der virtuellen Welt agiert. Ein „GUI-Agent“ ist ein Agent, der in einer grafischen Benutzeroberfläche (GUI) lebt. Man kann sich das so vorstellen: Ein Agent, der Klicks ausführen und auf meinem Desktop oder meinem Telefon navigieren kann. Dies bedeutet, dass das KI-Modell, das den Agenten antreibt, mit Aufgaben wie „Fülle die restliche Excel-Spalte aus“ konfrontiert wird, zusammen mit Bildschirmaufnahmen der GUI. Anhand dieser Informationen entscheidet es dann, welche Aktionen im System ausgeführt werden sollen.

Einführung in die Benchmarking-Suite

Die Literatur, wie Xu et al. (2025) oder Qin et al. (2025), unterteilt die Fähigkeiten von GUI-Agenten in mehrere Kategorien:

  1. Wahrnehmung: Korrekte Wahrnehmung der auf dem Bildschirm angezeigten Informationen.
  2. Verankerung: Verständnis der Positionierung von Elementen, was entscheidend ist, um an der richtigen Stelle zu klicken.
  3. Einzelaktionen: Korrekte Ausführung von Anweisungen über eine Aktion.
  4. Mehrschritt-Agenten: Lösung eines übergeordneten Ziels durch mehrere Aktionen in einer GUI-Umgebung.

Unsere erste Beitrag ist die Zusammenstellung und Vereinheitlichung einer umfassenden Suite von 13 Benchmarks, die das gesamte Spektrum dieser Fähigkeiten abdecken.

Die Herausforderungen der Evaluierung

Die Evaluierung der Fähigkeiten von Mehrschritt-Agenten ist besonders herausfordernd, da sie virtuelle Maschinen erfordert, um die Umgebung des Agenten auszuführen, sei es Windows, Android oder Ubuntu. Um dies zu adressieren, bieten wir Unterstützung sowohl für E2B-Desktop-Remotes als auch für die einfache Bereitstellung von Ubuntu- oder Android-VMs in Docker.

Implementierungsdetails

Wir haben unsere Benchmarking-Suite sorgfältig mit Blick auf Modularität und Konsistenz entworfen, um eine starke Übereinstimmung zwischen Aufgaben und Umgebungen zu gewährleisten. Um die Reproduzierbarkeit und Benutzerfreundlichkeit zu unterstützen, haben wir benutzerdefinierte Docker-Container erstellt, die die lokale Bereitstellung vollständiger Ubuntu-Desktop- oder Android-Umgebungen ermöglichen.

Im Gegensatz zu vielen bestehenden GUI-Benchmarks, die auf Zugriffsbaumstrukturen oder andere Metadaten neben visuellen Eingaben angewiesen sind, ist unser Ansatz absichtlich visionär. Dies kann zu unterschiedlichen Punktzahlen auf einigen etablierten Ranglisten führen, wir halten jedoch, dass dies eine realistischere und herausforderndere Umgebung schafft, die besser widerspiegelt, wie Menschen mit grafischen Schnittstellen interagieren.

Bewertung führender VLMs mit ScreenSuite

Wir haben führende VLMs anhand des Benchmarks bewertet, darunter:

  • Qwen-2.5-VL-Serie von Hugging Face, bekannt für ihre hervorragenden Lokalisierungsfähigkeiten.
  • UI-Tars-1.5-7B von ByteDance, der Allrounder.
  • Holo1-7B von H company, das neueste Modell mit hervorragender Leistung.
  • GPT-4o, das in verschiedenen Quellen gut abschneidet.

Unsere Punktzahlen stimmen im Allgemeinen mit den in verschiedenen Quellen berichteten Punktzahlen überein, wobei zu beachten ist, dass wir nur auf Vision evaluieren, was einige Unterschiede verursacht.

Starten Sie Ihre benutzerdefinierte Evaluierung in 30 Sekunden

Besuchen Sie das Repository, um loszulegen. Klonen Sie das Repository mit Submodulen, installieren Sie das Paket und führen Sie die Benchmarks aus. Die Mehrschritt-Benchmarks erfordern eine Bare-Metal-Maschine zur Ausführung und Bereitstellung von Desktop-/Mobile-Umgebungen.

Nächste Schritte

Die Durchführung konsistenter und bedeutungsvoller Bewertungen ermöglicht es der Community, schnell Fortschritte in diesem Bereich zu erzielen. Wir hoffen, in den kommenden Monaten viel leistungsfähigere offene Modelle zu sehen, die eine Vielzahl von Aufgaben zuverlässig ausführen können.

Um diese Bemühungen zu unterstützen, gehen Sie und geben Sie dem ScreenSuite-Repo ein Sternchen und geben Sie uns Feedback!

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar