Apple Details How It Trained Its New AI Models: 4 Interesting Highlights

Apple hat einen technischen Bericht veröffentlicht, der detailliert beschreibt, wie seine neuen KI-Modelle trainiert, optimiert und bewertet wurden. Der Bericht bietet interessante Einblicke in den Entwicklungsprozess und beleuchtet mehrere Aspekte der neuen Modelle, einschließlich ihrer Architektur, Datenquellen, Vor- und Nachbearbeitung, Tool-Nutzung, Optimierungen und Benchmarks.

Einführung in die neuen KI-Modelle von Apple

Im Rahmen der WWDC25 hat Apple neue Versionen seiner On-Device- und Cloud-basierten Foundation-Modelle vorgestellt. Diese Modelle sind darauf ausgelegt, die Benutzererfahrung auf Apple-Geräten zu verbessern und bieten Entwicklern neue Möglichkeiten zur Integration von KI-Funktionen in ihre Anwendungen. Der technische Bericht mit dem Titel „Apple Intelligence Foundation Language Models – Tech Report 2025“ ist eine umfassende Lektüre für alle, die sich für die technischen Details hinter diesen Modellen interessieren.

1. Aufteilung des lokalen Modells in zwei Blöcke

Das lokale Modell von Apple, das von Entwicklern genutzt werden kann, umfasst rund 3 Milliarden Parameter. Interessanterweise ist dieses Modell in zwei Blöcke unterteilt:

„Block 1 enthält 62,5 % der gesamten Transformer-Schichten, während Block 2 die verbleibenden 37,5 % der Transformer-Schichten enthält, jedoch die Schlüssel- und Wertprojektionen entfernt wurden.“

Diese Struktur ermöglicht es dem lokalen Modell, 37,5 % weniger Speicher für das Caching zu benötigen, und die Zeit, die benötigt wird, um das erste Token auszugeben, wurde ebenfalls um etwa 37,5 % reduziert. Trotz dieser Aufteilung hat Apple sichergestellt, dass die Gesamtleistung und die Ausgabequalität des Modells erhalten bleiben.

2. Kreative Architektur des Cloud-basierten Modells

Für sein Servermodell hat Apple eine maßgeschneiderte Architektur entwickelt, die speziell für die Private Cloud Compute-Plattform konzipiert wurde. Diese Architektur wird als Parallel-Track Mixture-of-Experts (PT-MoE) bezeichnet. Das Grundprinzip hinter Mixture of Experts besteht darin, dass anstelle eines großen KI-Modells mehrere kleinere Subnetzwerke (oder Experten) aktiviert werden, die nur dann aktiv sind, wenn die Aufgabe mit ihrem Fachgebiet zu tun hat.

Durch diese modulare Struktur kann das Modell schneller und oft genauer auf Anfragen reagieren, da nicht alle Experten gleichzeitig aktiv sind. Apple hat einen neuen Typ von Transformer entwickelt, der die Vorteile von Mixture of Experts nutzt, um die Effizienz und Skalierbarkeit des Modells zu verbessern.

3. Erhöhung der mehrsprachigen Repräsentation um 275 %

Ein häufig geäußerter Kritikpunkt an den ersten Modellen von Apple war die begrenzte Sprachunterstützung über Englisch hinaus. Mit den neuen Modellen hat Apple die Menge an mehrsprachigen Daten, die während des Trainings verwendet wurden, von 8 % auf 30 % erhöht. Dies umfasst sowohl organische als auch synthetische Inhalte.

Zusätzlich wurde der Tokenizer um 50 % erweitert, was bedeutet, dass das Modell jetzt 150.000 verschiedene Tokens kennt, im Vergleich zu zuvor 100.000. Diese Änderungen führten zu erheblichen Leistungssteigerungen in nicht-englischen Benchmarks, insbesondere nach der Feinabstimmung durch Reinforcement Learning.

4. Datenquellen für das Training der Modelle

Wie bei den ersten Modellen stammte der Großteil der Trainingsdaten von der Applebot-Crawler-Technologie. Apple betont, dass der Crawler die robots.txt-Ausschlüsse respektiert, sodass Webseiten, die nicht möchten, dass ihre Inhalte gecrawlt werden, dies angeben können.

Die Datenquellen umfassen:

Öffentlich verfügbare Webdaten: Der größte Teil der Trainingsdaten stammt aus dem Crawlen von Webseiten durch Applebot. Apple hat mehrere Filter angewendet, um qualitativ minderwertige, unsichere oder irrelevante Inhalte zu entfernen.
Lizenzierte Daten: Apple hat einige Trainingsdaten von Verlagen lizenziert, darunter Berichte über Verhandlungen mit Unternehmen wie Condé Nast und NBC News.
Synthetische Daten: Apple hat synthetische Daten mithilfe kleinerer Modelle und benutzerdefinierter Pipelines generiert, insbesondere für Aufgaben in den Bereichen Mathematik, Programmierung und vision-language.
Visuelle Daten: Um das Verständnis von Bildern zu unterstützen, sammelte Apple über 10 Milliarden Bild-Beschreibungspaarungen.

Fazit

Die Veröffentlichung dieses technischen Berichts gibt einen interessanten Einblick in die Verbesserungen und Herausforderungen, mit denen Apple konfrontiert ist. Trotz der Wahrnehmung, dass das Unternehmen im Bereich KI hinter der Konkurrenz zurückbleibt, zeigt dieser Bericht, dass Apple aktiv an der Verbesserung seiner KI-Modelle arbeitet und innovative Ansätze verfolgt, um die Benutzererfahrung zu optimieren.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien