Artikelbild für den Artikel: WEB BENCH - Eine neue Methode zur Bewertung von KI-Browser-Agenten

WEB BENCH – Eine neue Methode zur Bewertung von KI-Browser-Agenten

Web Bench ist ein neues Dataset zur Evaluierung von Web-Browsing-Agenten, das aus 5.750 Aufgaben auf 452 verschiedenen Websites besteht.

Einführung

In den letzten Monaten haben Web-Browsing-Agenten wie Skyvern, Browser-use und OpenAI’s Operator (CUA) die Welt im Sturm erobert. Diese Agenten werden in der Produktion für eine Vielzahl von Aufgaben eingesetzt, von der Unterstützung bei Jobbewerbungen über das Herunterladen von Rechnungen bis hin zu SS4-Anmeldungen für neu gegründete Unternehmen.

Die Herausforderung der aktuellen Benchmarking-Methoden

Obwohl die meisten Agenten eine erstklassige Leistung berichten, haben wir festgestellt, dass Browser-Agenten immer noch bei einer Vielzahl von Aufgaben Schwierigkeiten haben, insbesondere bei solchen, die Authentifizierung, Formularausfüllung und Dateidownloads betreffen. Der derzeitige Benchmark, WebVoyager, konzentriert sich auf Aufgaben, die stark leselastig sind, und besteht nur aus 643 Aufgaben auf lediglich 15 Websites. Dies ist zwar ein guter Ausgangspunkt, erfasst jedoch nicht die feindliche Natur des Internets gegenüber der Automatisierung von Browsern und die Schwierigkeiten bei Aufgaben, die das Verändern von Daten auf einer Website erfordern.

Die Entwicklung von Web Bench

Um diese Herausforderungen zu adressieren, haben wir uns mit Halluminate zusammengetan und einen neuen Benchmark entwickelt, um diese Mängel besser zu quantifizieren. Unser Ziel war es, ein konsistentes Messsystem für KI-Web-Agenten zu schaffen, indem wir die Grundlagen von WebVoyager erweitern:

  • Erweiterung der Anzahl der Websites von 15 auf 452 und der Aufgaben von 642 auf 5.750, um die Leistung der Agenten auf einer breiteren Palette von Websites zu testen.
  • Einführung des Konzepts von Lese- vs. Schreibaufgaben: Leseaufgaben beinhalten das Navigieren auf Websites und das Abrufen von Daten, während Schreibaufgaben das Eingeben von Daten, das Herunterladen von Dateien und das Lösen von 2FA umfassen.
  • Messung der Auswirkungen der Browserinfrastruktur (z.B. Zugriff auf die Websites, Lösen von Captchas, keine Abstürze usw.).

Ergebnisse der Evaluierung

Die Ergebnisse waren überraschend:

  • Alle Agenten schnitten bei schreiblastigen Aufgaben (z.B. Einloggen, Ausfüllen von Formularen, Herunterladen von Dateien) überraschend schlecht ab, was darauf hindeutet, dass hier das größte Wachstumspotenzial besteht.
  • Skyvern 2.0 erzielte die beste Leistung in dieser Kategorie.
  • Die Leistung der Agenten bei leselastigen Aufgaben (z.B. Extrahieren von Informationen von Websites) war besser als erwartet, wobei Anthropic’s CUA die höchste Leistung aufwies.
  • Die gesamte Durchführung ist open source und kann eingesehen werden, um die spezifische Leistung jeder Aufgabe zu überprüfen.

Dataset-Erstellung

Die 452 Websites sind über 17 Hauptkategorien verteilt. Wir haben die Benchmark-Websites aus den 1000 meistbesuchten Websites der Welt ausgewählt und das Dataset bereinigt, indem wir:

  • wiederholte Domains entfernt haben,
  • Websites ohne englische Übersetzungen ausgeschlossen haben,
  • Websites, die durch Paywalls blockiert sind, entfernt haben.

Agenten- und Infrastrukturfehler

Die häufigsten Fehlerquellen bei den Agenten sind:

  • Navigation Probleme (z.B. kann die Seite nicht navigieren, Popups nicht lösen),
  • Unvollständige Ausführung (z.B. Halluzination, dass das Ziel erreicht wurde, obwohl dies nicht der Fall ist),
  • Timeouts (Überschreitung der Schrittgrenzen),
  • Probleme bei der Informationsbeschaffung (z.B. zieht nicht die richtigen Informationen).

Die häufigsten Infrastrukturprobleme sind:

  • Proxy-Probleme (z.B. Zugriff auf die Website fehlgeschlagen),
  • Captcha-Probleme (z.B. Verifizierung erforderlich),
  • Login/Authentifizierung (z.B. Google Auth erkennt, dass Sie ein Bot sind).

Fazit und Ausblick

Die Ergebnisse deuten darauf hin, dass die Browserinfrastruktur, die die Agenten antreibt, ebenso wichtig ist wie die Qualität des Agenten selbst. Zukünftige Schritte umfassen die Benchmarking von Claude 4, Operator O3, UI-TARs und Mariner API. Zudem planen wir, das Benchmarking auf mehr Kategorien von Websites auszuweiten und das Dataset um weitere Sprachen zu erweitern, um die Leistung mehrsprachiger Browser-Agenten zu überprüfen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar