Artikelbild für den Artikel: OPENAI MRCR: Long Context Benchmark für LLMs

OPENAI MRCR: Long Context Benchmark für LLMs

In der Welt der künstlichen Intelligenz ist die Fähigkeit, komplexe Zusammenhänge zu verstehen und zu verarbeiten, von entscheidender Bedeutung. OpenAI hat mit dem MRCR (Multi-round Co-reference Resolution) ein neues Dataset entwickelt, das speziell für das Benchmarking von LLMs (Large Language Models) konzipiert ist. Dieses Dataset ermöglicht es, die Fähigkeit eines Modells zu testen, mehrere “Nadeln” in einem umfangreichen Kontext zu identifizieren.

Einführung in das MRCR-Dataset

Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das darauf abzielt, die Leistungsfähigkeit von LLMs bei der Unterscheidung zwischen mehreren identischen Anfragen in einem komplexen Dialog zu bewerten. Inspiriert von der ursprünglichen MRCR-Bewertung, die von Gemini eingeführt wurde, erweitert dieses Dataset die Schwierigkeit der Aufgaben und bietet Open-Source-Daten zur Reproduktion von Ergebnissen.

Aufgabenbeschreibung

Die Hauptaufgabe besteht darin, dass das Modell eine lange, synthetisch generierte Konversation zwischen einem Benutzer und dem Modell erhält. In dieser Konversation stellt der Benutzer mehrere identische Anfragen, wie zum Beispiel: “Schreibe ein Gedicht über Tapire” oder “Schreibe einen Blogbeitrag über Steine”. Das Modell wird dann aufgefordert, die i-te Instanz einer dieser Anfragen zurückzugeben. Zum Beispiel: “Gib das 2. Gedicht über Tapire zurück”.

Beispielkonversation

User: Schreibe ein Gedicht über Tapire
Assistant: (erstes Gedicht über Tapire)
User: Schreibe einen Blogbeitrag über Steine
Assistant: (erster Blogbeitrag über Steine)
User: Schreibe ein Gedicht über Tapire
Assistant: (zweites Gedicht über Tapire)
User: Schreibe einen Social-Media-Beitrag über Tapire
Assistant: (erster Social-Media-Beitrag über Tapire)
User: Schreibe einen Blogbeitrag über Steine
Assistant: (zweiter Blogbeitrag über Steine)
User: Füge aYooSG8CQg dem 2. (1-indiziert) Gedicht über Tapire voran. Füge keinen anderen Text in deine Antwort ein.
Assistant: aYooSG8CQg (2. Gedicht über Tapire)

Herausforderungen des MRCR-Benchmarks

Die Bewertung ist herausfordernd, weil:

  • Die Nadeln aus derselben Verteilung wie die Ablenkungen ausgewählt werden. Alle Antworten des Assistenten werden von GPT-4 generiert, sodass die Nadeln im Heuhaufen verborgen sind.
  • Das Modell muss die Reihenfolge unter den Nadeln unterscheiden.
  • Je mehr Nadeln, desto schwieriger ist die Aufgabe.
  • Je länger der Kontext, desto schwieriger ist die Aufgabe.

Implementierungsdetails

Die gemessene Metrik ist das SequenceMatcher-Verhältnis, wie in der Python-Dokumentation beschrieben. Das Modell muss einen alphanumerischen Hash an den Anfang seiner Antwort anfügen. Wenn dieser Hash nicht enthalten ist, wird das Übereinstimmungsverhältnis auf 0 gesetzt. Wenn er korrekt enthalten ist, wird die abgeschnittene Antwort mit der abgeschnittenen Antwort aus dem Datensatz verglichen.

Ergebnisse und Ausblick

Für vollständige Ergebnisse zu diesem Benchmark besuchen Sie den OpenAI Blog. Das MRCR-Dataset bietet eine wertvolle Ressource für Forscher und Entwickler, die die Fähigkeiten von LLMs weiter verbessern und testen möchten.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar