OPENAI MRCR: Long Context Benchmark für LLMs
In der Welt der künstlichen Intelligenz ist die Fähigkeit, komplexe Zusammenhänge zu verstehen und zu verarbeiten, von entscheidender Bedeutung. OpenAI hat mit dem MRCR (Multi-round Co-reference Resolution) ein neues Dataset entwickelt, das speziell für das Benchmarking von LLMs (Large Language Models) konzipiert ist. Dieses Dataset ermöglicht es, die Fähigkeit eines Modells zu testen, mehrere “Nadeln” in einem umfangreichen Kontext zu identifizieren.
Einführung in das MRCR-Dataset
Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das darauf abzielt, die Leistungsfähigkeit von LLMs bei der Unterscheidung zwischen mehreren identischen Anfragen in einem komplexen Dialog zu bewerten. Inspiriert von der ursprünglichen MRCR-Bewertung, die von Gemini eingeführt wurde, erweitert dieses Dataset die Schwierigkeit der Aufgaben und bietet Open-Source-Daten zur Reproduktion von Ergebnissen.
Aufgabenbeschreibung
Die Hauptaufgabe besteht darin, dass das Modell eine lange, synthetisch generierte Konversation zwischen einem Benutzer und dem Modell erhält. In dieser Konversation stellt der Benutzer mehrere identische Anfragen, wie zum Beispiel: “Schreibe ein Gedicht über Tapire” oder “Schreibe einen Blogbeitrag über Steine”. Das Modell wird dann aufgefordert, die i-te Instanz einer dieser Anfragen zurückzugeben. Zum Beispiel: “Gib das 2. Gedicht über Tapire zurück”.
Beispielkonversation
User: Schreibe ein Gedicht über Tapire
Assistant: (erstes Gedicht über Tapire)
User: Schreibe einen Blogbeitrag über Steine
Assistant: (erster Blogbeitrag über Steine)
User: Schreibe ein Gedicht über Tapire
Assistant: (zweites Gedicht über Tapire)
User: Schreibe einen Social-Media-Beitrag über Tapire
Assistant: (erster Social-Media-Beitrag über Tapire)
User: Schreibe einen Blogbeitrag über Steine
Assistant: (zweiter Blogbeitrag über Steine)
User: Füge aYooSG8CQg dem 2. (1-indiziert) Gedicht über Tapire voran. Füge keinen anderen Text in deine Antwort ein.
Assistant: aYooSG8CQg (2. Gedicht über Tapire)
Herausforderungen des MRCR-Benchmarks
Die Bewertung ist herausfordernd, weil:
- Die Nadeln aus derselben Verteilung wie die Ablenkungen ausgewählt werden. Alle Antworten des Assistenten werden von GPT-4 generiert, sodass die Nadeln im Heuhaufen verborgen sind.
- Das Modell muss die Reihenfolge unter den Nadeln unterscheiden.
- Je mehr Nadeln, desto schwieriger ist die Aufgabe.
- Je länger der Kontext, desto schwieriger ist die Aufgabe.
Implementierungsdetails
Die gemessene Metrik ist das SequenceMatcher-Verhältnis, wie in der Python-Dokumentation beschrieben. Das Modell muss einen alphanumerischen Hash an den Anfang seiner Antwort anfügen. Wenn dieser Hash nicht enthalten ist, wird das Übereinstimmungsverhältnis auf 0 gesetzt. Wenn er korrekt enthalten ist, wird die abgeschnittene Antwort mit der abgeschnittenen Antwort aus dem Datensatz verglichen.
Ergebnisse und Ausblick
Für vollständige Ergebnisse zu diesem Benchmark besuchen Sie den OpenAI Blog. Das MRCR-Dataset bietet eine wertvolle Ressource für Forscher und Entwickler, die die Fähigkeiten von LLMs weiter verbessern und testen möchten.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!