Beiträge

Die 1 Milliarde Token Herausforderung: Das perfekte Pre-Training-Mix finden
/
0 Kommentare
Der Artikel behandelt die Herausforderung, ein optimales Dataset für das Pre-Training von Sprachmodellen zu finden, um die Leistung mit weniger Daten zu steigern. Es wird beschrieben, wie durch sorgfältige Auswahl und Mischung von Datensätzen eine signifikante Effizienzsteigerung erreicht werden kann.

OPENAI MRCR: Long Context Benchmark für LLMs
Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das die Fähigkeit von LLMs testet, mehrere identische Anfragen in einem komplexen Dialog zu identifizieren und zu verarbeiten.

INSTITUTIONAL BOOKS 1.0: Ein bedeutendes Dataset für die Forschung
Die Harvard Library und Google Books haben 242 Milliarden Tokens aus nahezu 1 Million gemeinfreier Bücher veröffentlicht, die als hochwertiges Trainingsdataset dienen.

Neue Gewichte und Daten für Vision-Language-Action-Modelle
Impromptu VLA hat ein neues Dataset mit 80.000 kuratierten Fahrvideo-Clips eingeführt, um die Leistung von Vision-Language-Action-Modellen in unstrukturierten Szenarien zu verbessern.
