Artikelbild für den Artikel: Evaluierung der Kontextkompression für KI-Agenten

Evaluierung der Kontextkompression für KI-Agenten

In der heutigen digitalen Welt, in der KI-Agenten zunehmend in komplexe Aufgaben integriert werden, ist die Fähigkeit, Kontext effizient zu komprimieren und dabei nützliche Informationen zu bewahren, von entscheidender Bedeutung. Dieser Artikel untersucht einen Evaluierungsrahmen, der misst, wie viel Kontext verschiedene Kompressionsstrategien bewahren. Die Ergebnisse zeigen, dass strukturierte Zusammenfassungen mehr nützliche Informationen erhalten als Alternativen von OpenAI und Anthropic.

Wenn ein KI-Agent Ihnen hilft, eine komplexe Aufgabe über Hunderte von Nachrichten hinweg zu bewältigen, stellt sich die Frage: Was passiert, wenn er seine Gedächtniskapazität überschreitet? Die Antwort darauf bestimmt, ob Ihr Agent produktiv bleibt oder anfängt zu fragen: „Warte, was wollten wir noch einmal tun?“

Das Problem

Langfristige Agentensitzungen können Millionen von Tokens an Gesprächshistorie generieren, was die Kapazität jedes Modells weit übersteigt. Die naive Lösung ist aggressive Kompression: alles in die kleinste mögliche Zusammenfassung quetschen. Doch dies erhöht die Wahrscheinlichkeit, dass Ihr Agent vergisst, welche Dateien er geändert hat oder welche Ansätze er bereits ausprobiert hat. Dies führt oft dazu, dass Tokens verschwendet werden, indem Dateien erneut gelesen und bereits erkundete Sackgassen erneut untersucht werden.

Das richtige Optimierungsziel ist nicht die Anzahl der Tokens pro Anfrage, sondern die Anzahl der Tokens pro Aufgabe.

Messung der Kontextqualität

Traditionelle Metriken wie ROUGE oder Einbettungsähnlichkeit sagen nichts darüber aus, ob ein Agent nach der Kompression weiterhin effektiv arbeiten kann. Eine Zusammenfassung kann zwar hohe Punktzahlen für lexikalische Überlappung erzielen, aber das entscheidende Detail, das der Agent benötigt, um fortzufahren, könnte fehlen.

Wir haben eine probe-basierte Evaluierung entwickelt, die direkt die funktionale Qualität misst. Die Idee ist einfach: Nach der Kompression wird der Agent gefragt, welche spezifischen Details aus der gekürzten Historie er sich erinnern kann. Wenn die Kompression die richtigen Informationen bewahrt hat, antwortet der Agent korrekt. Andernfalls rät er oder halluziniert.

Probe-Typen

  • Recall: Faktenerhaltung – „Was war die ursprüngliche Fehlermeldung?“
  • Artifact: Dateiverfolgung – „Welche Dateien haben wir modifiziert? Beschreiben Sie, was sich in jeder geändert hat.“
  • Continuation: Aufgabenplanung – „Was sollten wir als Nächstes tun?“
  • Decision: Entscheidungsfindung – „Wir haben Optionen für das Redis-Problem diskutiert. Was haben wir entschieden?“

Drei Ansätze zur Kompression

Wir haben drei produktionsbereite Kompressionsstrategien verglichen:

  1. Factory: Hält eine strukturierte, persistente Zusammenfassung mit expliziten Abschnitten für verschiedene Informationstypen: Sitzungsabsicht, Dateiänderungen, getroffene Entscheidungen und nächste Schritte. Bei der Kompression wird nur der neu gekürzte Abschnitt zusammengefasst und mit der bestehenden Zusammenfassung zusammengeführt. Wir nennen dies „verankerte iterative Zusammenfassung“.
  2. OpenAI: Bietet den /responses/compact-Endpunkt, der undurchsichtige, komprimierte Darstellungen produziert, die für die Rekonstruktionsgenauigkeit optimiert sind. Es erreicht die höchsten Kompressionsraten (99,3 %), opfert jedoch die Interpretierbarkeit.
  3. Anthropic: Bietet integrierte Kontextkompression über das Claude SDK. Es produziert detaillierte, strukturierte Zusammenfassungen (typischerweise 7-12k Zeichen) mit Abschnitten für Analyse, Dateien, ausstehende Aufgaben und aktuellen Status.

Ergebnisse

Wir haben alle drei Methoden an über 36.000 Nachrichten aus Produktionssitzungen getestet, die PR-Überprüfungen, Tests, Fehlerbehebungen, Funktionsimplementierungen und Refaktorisierungen umfassten. Factory erzielte die höchsten Punktzahlen in den Dimensionen Genauigkeit, Kontextbewusstsein und Artefaktverfolgung.

Die größte Überraschung war, wie wichtig Struktur ist. Generische Zusammenfassungen behandeln alle Inhalte als gleichwertig komprimierbar. Ein Dateipfad mag aus informationstheoretischer Sicht „niedrige Entropie“ haben, aber genau das benötigt der Agent, um weiterzuarbeiten. Durch das Zwingen des Zusammenfassers, explizite Abschnitte für Dateien, Entscheidungen und nächste Schritte auszufüllen, verhindert das Format von Factory den stillen Drift, der auftritt, wenn Zusammenfassungen von Grund auf regeneriert werden.

Fazit

Die Ergebnisse zeigen, dass die Wahl der Kompressionsstrategie entscheidend für die Effizienz und Effektivität von KI-Agenten ist. Insbesondere strukturierte Ansätze bieten signifikante Vorteile in der Kontextbewahrung, was zu einer besseren Leistung in realen Anwendungen führt.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar