Artikelbild für den Artikel: Helium 1: Ein modularer und mehrsprachiger LLM

Helium 1: Ein modularer und mehrsprachiger LLM

Heute freuen wir uns, unser neuestes Text-Large-Language-Model Helium 1 vorzustellen – ein leichtgewichtiges, aber leistungsstarkes Modell mit 2 Milliarden Parametern, das darauf ausgelegt ist, einen neuen Maßstab innerhalb seiner Größenkategorie zu setzen. Helium 1 erzielt eine Spitzenleistung unter Modellen ähnlicher Größe, wenn es über eine Vielzahl von Aufgaben in europäischen Sprachen evaluiert wird und zeigt gute mehrsprachige Fähigkeiten sowie eine hohe Generalisierbarkeit.

Mit seiner kompakten Architektur ist Helium 1 für Edge-Computing und die Bereitstellung auf Geräten optimiert, was schnelle, effiziente und private KI-Erlebnisse direkt auf Smartphones, eingebetteten Geräten und anderen ressourcenbeschränkten Umgebungen ermöglicht. Dies stellt einen bedeutenden Schritt in Richtung Demokratisierung des Zugangs zu KI dar und verringert die Abhängigkeit von cloudbasierten Systemen.

Ein Beitrag zur offenen Wissenschaft

Im Rahmen unseres Engagements für offene Wissenschaft und Transparenz veröffentlichen wir auch den Code und die Werkzeuge, die erforderlich sind, um den Trainingsdatensatz zu reproduzieren, der die 24 offiziellen Sprachen der Europäischen Union abdeckt. Dies verbessert nicht nur die Reproduzierbarkeit unserer Arbeit, sondern trägt auch zum übergeordneten Ziel bei, gerechte und inklusive Sprachtechnologien zu entwickeln, die die sprachliche Vielfalt Europas widerspiegeln.

Die Dactory-Datenfabrik

Ein entscheidendes Element für die Entwicklung großer Sprachmodelle ist der Trainingsdatensatz. In den letzten Jahren stellte das Web-Crawled-Datenmaterial die Mehrheit der Trainingsdaten für diese Modelle dar. In unserem Fall verlassen wir uns auf das Korpus von Webseiten, das vom Common Crawl Projekt bereitgestellt wird. Da der Inhalt und die Qualität der Common Crawl-Daten sehr unterschiedlich sind, haben wir Werkzeuge entwickelt, um die Daten zu verarbeiten und zu filtern, um qualitativ hochwertige Datensätze zu erhalten, die für das Training starker Sprachmodelle geeignet sind.

Unsere Pipeline beginnt mit den WARC-Archiven, die HTML-Webseiten enthalten. Der erste Schritt besteht darin, den Haupttextinhalt jeder Seite mithilfe des resiliparse Pakets zu extrahieren. Anschließend wenden wir die Sprachidentifikation mit fastText an, um die Sprache zu bestimmen. Danach führen wir eine Duplikatsprüfung auf Absatzebene durch, um sicherzustellen, dass wir qualitativ hochwertige Inhalte verwenden.

Die Architektur und das Training von Helium 1

Helium 1 basiert auf der Transformer-Architektur. Es verwendet gängige Verbesserungen der Standard-Transformer-Architektur, wie z.B. die Vor-Normalisierung mit RMSNorm, rotierende Positionskodierung und feed-forward Schichten, die auf gated linear units basieren. Um die Inferenz effizienter zu gestalten, verwendet Helium 1 auch gruppierte Abfrageaufmerksamkeit. Insgesamt ähnelt die Architektur stark LLaMA 2.

Das Modell wird mit einer Batch-Größe von 4 Millionen Tokens über 500.000 Schritte auf 64 H100 GPUs trainiert. Die ersten 200.000 Schritte trainieren wir auf Dokumenten mit einer Qualitätsgrenze von über 0,2, bevor wir diese Grenze für die nächsten 200.000 Schritte auf 0,25 und schließlich auf 0,35 für die letzten 100.000 Schritte erhöhen.

Modularer Modellansatz

Ein innovativer Aspekt von Helium 1 ist die Idee des Model Soup, bei dem die Parameter mehrerer Modelle kombiniert werden, die mit unterschiedlichen Hyperparametern oder Datensätzen trainiert wurden, um ein Modell mit besserer Leistung oder besserer Generalisierung zu erzielen. Wir berichten über die Leistung von drei spezialisierten Modellen, die auf verschiedenen Datensätzen trainiert wurden, um den Einfluss der Trainingsdaten auf die Leistung zu veranschaulichen.

Multilinguale Ergebnisse

Schließlich bewerten wir unsere Modelle anhand verschiedener mehrsprachiger Aufgaben, wie z.B. Multiple-Choice- und offene Fragen, gesundem Menschenverstand und Übersetzungen, die 23 europäische Sprachen abdecken. Wir evaluieren die Modelle auf den übersetzten Varianten von ARC, MMLU und HellaSwag, die vom Eurolingua Projekt bereitgestellt werden.

Verfügbarkeit und Ressourcen

Die Helium 1 Modelle sind auf HuggingFace verfügbar, ebenso wie die Dactory Pipeline auf GitHub. Wir freuen uns darauf, mit der Forschungs- und Entwicklergemeinschaft zusammenzuarbeiten, um die Fähigkeiten von Helium 1 in realen Anwendungen weiter zu verfeinern und zu erweitern.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar