Beiträge

Artikelbild für den Artikel: Die 1 Milliarde Token Herausforderung: Das perfekte Pre-Training-Mix finden

Die 1 Milliarde Token Herausforderung: Das perfekte Pre-Training-Mix finden

/
Der Artikel behandelt die Herausforderung, ein optimales Dataset für das Pre-Training von Sprachmodellen zu finden, um die Leistung mit weniger Daten zu steigern. Es wird beschrieben, wie durch sorgfältige Auswahl und Mischung von Datensätzen eine signifikante Effizienzsteigerung erreicht werden kann.
Artikelbild für den Artikel: OPENAI MRCR: Long Context Benchmark für LLMs

OPENAI MRCR: Long Context Benchmark für LLMs

/
Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das die Fähigkeit von LLMs testet, mehrere identische Anfragen in einem komplexen Dialog zu identifizieren und zu verarbeiten.
Artikelbild für den Artikel: INSTITUTIONAL BOOKS 1.0: Ein bedeutendes Dataset für die Forschung

INSTITUTIONAL BOOKS 1.0: Ein bedeutendes Dataset für die Forschung

/
Die Harvard Library und Google Books haben 242 Milliarden Tokens aus nahezu 1 Million gemeinfreier Bücher veröffentlicht, die als hochwertiges Trainingsdataset dienen.
Artikelbild für den Artikel: Neue Gewichte und Daten für Vision-Language-Action-Modelle

Neue Gewichte und Daten für Vision-Language-Action-Modelle

/
Impromptu VLA hat ein neues Dataset mit 80.000 kuratierten Fahrvideo-Clips eingeführt, um die Leistung von Vision-Language-Action-Modellen in unstrukturierten Szenarien zu verbessern.