Artikelbild für den Artikel: Common Pile v0.1: Ein Durchbruch für offene Datensätze in der KI-Forschung

Common Pile v0.1: Ein Durchbruch für offene Datensätze in der KI-Forschung

Hugging Face und seine Partner haben das Common Pile v0.1 veröffentlicht, ein 8 TB umfassendes, offen lizenziertes Datenset zur Schulung großer Sprachmodelle. Diese Veröffentlichung markiert einen bedeutenden Fortschritt in der Bereitstellung von qualitativ hochwertigen Trainingsdaten für die KI-Forschung.

Einführung in das Common Pile v0.1

Vor viereinhalb Jahren trat EleutherAI mit der Veröffentlichung von The Pile in die KI-Szene ein, einem 800 GB großen Datensatz, der eine Vielzahl von Texten für das Sprachmodellieren bietet. The Pile war zu dieser Zeit einzigartig, da es viele jetzt gängige Datenquellen wie PubMed und StackExchange einführte und die Idee propagierte, Code und natürliche Sprache nebeneinander zu trainieren. Das Wichtigste war jedoch, dass es 300 Milliarden GPT-2-Tokens enthielt, die aktiv zum Training eines großen Sprachmodells verwendet wurden.

Die Notwendigkeit öffentlicher Datensätze

Die öffentliche Bereitstellung von groß angelegten Trainingsdatensätzen ist für rigorose wissenschaftliche Arbeiten unerlässlich. Forschungsbereiche wie Memorierung, Datenschutz, Datenkuratierung und Curriculum-Lernen sind ohne Zugang zu Trainingsdaten nicht möglich. Ein gemeinsamer Korpus ermöglicht kontrollierte Ablationsstudien und Benchmarking, da alternative Architekturen unter identischen Datenbedingungen bewertet werden können.

Herausforderungen und Transparenz in der Datennutzung

In den letzten Jahren gab es Dutzende von Klagen bezüglich der Nutzung von Daten im maschinellen Lernen. Diese Klagen haben die Transparenz, mit der Unternehmen umgehen, drastisch verringert. Im Vergleich zu Modellen, die zwischen 2020 und 2022 veröffentlicht wurden, zeigt sich ein besorgniserregender Trend hin zu weniger Transparenz. Selbst Unternehmen, die für ihre geschlossenen Praktiken bekannt sind, wie OpenAI und Google DeepMind, haben in den letzten Jahren weniger Informationen über ihre Trainingsdaten veröffentlicht.

Das Common Pile v0.1 im Detail

Wir freuen uns, die lang erwartete Veröffentlichung des Nachfolgers von The Pile anzukündigen: das Common Pile v0.1. In Zusammenarbeit mit der University of Toronto, dem Vector Institute und anderen Partnern haben wir in den letzten zwei Jahren einen 8 TB umfassenden Korpus aus offen lizenzierten und gemeinfreien Texten kuratiert. Dies wird die Grundlage für die Schulung großer Sprachmodelle bilden.

Offenheit als kultureller Wert

Offenheit ist ein tief verwurzelter kultureller Wert bei EleutherAI. Wir sind eine Gemeinschaft für offene Wissenschaft, Open Source und offenes Wissen. Ein zentrales Ziel ist es, mehr Menschen weltweit zu ermächtigen, sich mit der Forschung an großen Sprachmodellen zu beschäftigen.

Die Herausforderungen bei der Lizenzierung

Die Kuratierung von offen lizenzierten Datensätzen erfordert erhebliche Anstrengungen. Es gibt unterschiedliche Meinungen darüber, was eine “offene” Lizenz ausmacht. Für Common Pile mussten wir rechtliche Experten konsultieren, um eine Liste von Lizenzen zu erstellen, die wir als ausreichend offen für die Zwecke des LLM-Trainings erachten.

Die Bedeutung von offenen Daten

Die Offenlegung von Dateninformationen ist nicht nur für die Forschung wichtig, sondern auch für die Verantwortlichkeit. Führende Modellanbieter warnen vor den potenziellen negativen Auswirkungen ihrer Produkte, wie der Fähigkeit, Malware zu generieren oder nicht einvernehmliche intime Bilder zu erstellen. Die Öffentlichkeit hat das Recht zu wissen, wie diese Technologien funktionieren und welche Daten verwendet werden.

Ausblick auf die Zukunft

Die Bezeichnung dieses Datensatzes als Common Pile v0.1 ist eine klare Absichtserklärung. Wir sind begeistert von dieser Veröffentlichung, sehen sie jedoch als ersten Schritt und nicht als letzten. Wir möchten größere und bessere Versionen entwickeln und mehr offen lizenzierte Daten freischalten, die derzeit unbrauchbar sind.

Fazit

Das Common Pile v0.1 stellt einen bedeutenden Fortschritt in der Bereitstellung von qualitativ hochwertigen, offen lizenzierten Trainingsdaten dar. Es wird die Forschung im Bereich der großen Sprachmodelle vorantreiben und die Transparenz in der Nutzung von Daten fördern.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar