Context Rot: Wie sich die Erhöhung der Eingabetokens auf die Leistung von LLMs auswirkt

In der Welt der Künstlichen Intelligenz und insbesondere bei den Large Language Models (LLMs) gibt es eine weit verbreitete Annahme, dass diese Modelle Eingaben unabhängig von deren Länge verarbeiten können. Doch wie eine aktuelle Untersuchung zeigt, ist diese Annahme nicht korrekt. Die Leistung von LLMs verschlechtert sich signifikant, wenn die Eingabelänge zunimmt, selbst bei einfachen Aufgaben wie der Textabfrage und -replikation.

Einführung

Die Forschung zu LLMs hat in den letzten Jahren enorm zugenommen, wobei Modelle wie GPT-4.1, Claude 4 und Gemini 2.5 die neuesten Entwicklungen darstellen. Diese Modelle sind in der Lage, Eingaben in der Größenordnung von Millionen von Tokens zu verarbeiten. Während diese langen Eingaben in der Theorie vielversprechend erscheinen, zeigen praktische Tests, dass die Leistung der Modelle nicht einheitlich bleibt, wenn die Eingabelängen steigen.

Die Herausforderung der langen Eingaben

Die Untersuchung, die 18 verschiedene LLMs bewertet, darunter die neuesten Modelle, hat ergeben, dass die Leistung dieser Modelle nicht gleichmäßig ist. Die gängigen Benchmarks, wie das Needle in a Haystack (NIAH)-Testverfahren, zeigen zwar hohe Punktzahlen, jedoch handelt es sich hierbei oft um einfache lexikalische Abgleichaufgaben, die nicht die komplexen Anforderungen realer Anwendungen widerspiegeln.

Experimente und Ergebnisse

Die Forscher führten mehrere kontrollierte Experimente durch, um die Auswirkungen der Eingabelänge auf die Modellleistung zu isolieren. Dabei wurde festgestellt, dass selbst unter minimalen Bedingungen die Leistung der Modelle abnimmt, je länger die Eingabe ist. Dies geschieht oft auf überraschende und nicht einheitliche Weise.

Needle in a Haystack

Der klassische NIAH-Test beinhaltet das Platzieren eines zufälligen Faktums (die „Nadel“) in einem langen Kontext (dem „Heuhaufen“) und die Aufforderung an das Modell, dieses Faktum abzurufen. Die ursprüngliche Implementierung verwendet lexikalische Übereinstimmungen, doch in der Praxis erfordert die Nutzung langer Kontexte oft ein tieferes semantisches Verständnis.

Einfluss von Ablenkungen

Ein weiterer wichtiger Aspekt, der in der Untersuchung behandelt wurde, ist der Einfluss von Ablenkungen. Ablenkungen sind thematisch verwandte, aber nicht direkt relevante Informationen, die die Leistung des Modells beeinträchtigen können. Die Ergebnisse zeigen, dass die Auswirkungen von Ablenkungen nicht einheitlich sind und sich mit zunehmender Eingabelänge verstärken.

Die Bedeutung von Kontext und Struktur

Die Struktur des Heuhaufens selbst hat ebenfalls einen signifikanten Einfluss auf die Leistung der Modelle. In typischen NIAH-Setups sind die Heuhaufen oft kohärente Texte, die eine logische Argumentation verfolgen. Die Forscher fanden jedoch heraus, dass die Leistung der Modelle in zufällig angeordneten Heuhaufen besser war als in strukturierten, was darauf hindeutet, dass die Modelle empfindlich auf die logische Struktur der Eingaben reagieren.

Langzeitgedächtnis und Konversationsanwendungen

Um die Modelle in realistischeren Szenarien zu bewerten, wurde das LongMemEval-Benchmark verwendet, das auf die Frage-Antwort-Interaktion in Konversationen abzielt. Hierbei zeigte sich, dass die Modelle bei fokussierten Eingaben, die nur relevante Teile enthalten, signifikant besser abschnitten als bei vollständigen Eingaben, die irrelevante Kontexte beinhalteten.

Fazit

Die Ergebnisse dieser Untersuchungen verdeutlichen, dass LLMs nicht in der Lage sind, eine konsistente Leistung über verschiedene Eingabelängen hinweg aufrechtzuerhalten. Selbst bei einfachen Aufgaben wie der nicht-lexikalischen Abfrage oder der Textreplikation zeigt sich eine zunehmende Nicht-Uniformität in der Leistung. Dies unterstreicht die Notwendigkeit für rigorosere Bewertungen von langen Kontexten und die Bedeutung des Kontextengineering, um die Leistung der Modelle zu optimieren.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Context Rot: Wie sich die Erhöhung der Eingabetokens auf die Leistung von LLMs auswirkt

Einführung

Die Herausforderung der langen Eingaben