Dataset - Trend Forge

Beiträge

Die 1 Milliarde Token Herausforderung: Das perfekte Pre-Training-Mix finden

17. November 2025

Der Artikel behandelt die Herausforderung, ein optimales Dataset für das Pre-Training von Sprachmodellen zu finden, um die Leistung mit weniger Daten zu steigern. Es wird beschrieben, wie durch sorgfältige Auswahl und Mischung von Datensätzen eine signifikante Effizienzsteigerung erreicht werden kann.

OPENAI MRCR: Long Context Benchmark für LLMs

25. Juni 2025

0 Kommentare

Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das die Fähigkeit von LLMs testet, mehrere identische Anfragen in einem komplexen Dialog zu identifizieren und zu verarbeiten.

INSTITUTIONAL BOOKS 1.0: Ein bedeutendes Dataset für die Forschung

16. Juni 2025

0 Kommentare

Die Harvard Library und Google Books haben 242 Milliarden Tokens aus nahezu 1 Million gemeinfreier Bücher veröffentlicht, die als hochwertiges Trainingsdataset dienen.

Neue Gewichte und Daten für Vision-Language-Action-Modelle

3. Juni 2025

0 Kommentare

Impromptu VLA hat ein neues Dataset mit 80.000 kuratierten Fahrvideo-Clips eingeführt, um die Leistung von Vision-Language-Action-Modellen in unstrukturierten Szenarien zu verbessern.

Beiträge

Die 1 Milliarde Token Herausforderung: Das perfekte Pre-Training-Mix finden

OPENAI MRCR: Long Context Benchmark für LLMs

INSTITUTIONAL BOOKS 1.0: Ein bedeutendes Dataset für die Forschung

Neue Gewichte und Daten für Vision-Language-Action-Modelle

Über uns

Archive

Kategorien

Schlagwortarchiv für: Dataset

Beiträge

Über uns

Archive

Kategorien

Schlagwörter