Artikelbild für den Artikel: Netzwerk- und Speicherbenchmarks für das Training von LLMs in der Cloud

Netzwerk- und Speicherbenchmarks für das Training von LLMs in der Cloud

In der heutigen Zeit ist die Nutzung von KI allgegenwärtig. Teams arbeiten an der Erstellung von RAG, der Generierung von Embeddings und dem Training zunehmend komplexerer Agenten. Bei der Durchführung von verteiltem Training für große Sprachmodelle (LLMs) wird oft der Fokus auf die Modellarchitektur und Hyperparameter gelegt, während ein kritischer Engpass oft ignoriert wird: die Infrastrukturkonfiguration. Die Wahl von Netzwerk- und Speicherlösungen kann entscheidend dafür sein, ob das Training Stunden oder Tage in Anspruch nimmt.

Hintergrund zu Trainingsengpässen

Eine überraschende Erkenntnis für viele, die neu im Bereich des großflächigen Trainings sind, ist, dass die GPUs wahrscheinlich nicht der begrenzende Faktor sind. Moderne Beschleuniger wie die H200 können die Daten, die man ihnen zuführt, mit unglaublichen Geschwindigkeiten verarbeiten. Die eigentliche Herausforderung besteht darin, diese GPUs kontinuierlich mit Daten zu versorgen.

Die beiden Hebel, die Sie kontrollieren können

Bei der Durchführung von verteiltem Training haben Sie Einfluss auf zwei kritische Komponenten: Speicher und Netzwerk, insbesondere wenn Sie auf Cloud-GPUs arbeiten. Das Ziel ist einfach: die GPU-Auslastung zu maximieren (oder anders ausgedrückt, die GPU-Inaktivität zu minimieren). Dies erfordert jedoch ein Verständnis dafür, wie Daten durch Ihre Trainingspipeline fließen und wo Engpässe typischerweise auftreten.

Die Trainingsdatenflüsse

Während des Trainings bewegen sich die Daten durch folgende Phasen:

  1. Daten aus dem Dataset laden – Speicher
  2. Gradienten zwischen Knoten kommunizieren – Netzwerk
  3. Checkpoint speichern, um den Fortschritt zu sichern – Speicher

In jeder dieser Phasen können Engpässe auftreten. Beispielsweise kann das Laden von Datasets oder das Speichern von Checkpoints im Speicher außergewöhnlich lange dauern und den Fortschritt der GPU blockieren. Oder die Bandbreite des internen Netzwerks könnte unzureichend sein, um Kommunikationsoperationen (zum Synchronisieren von Gewichten/Gradienten) zu unterstützen.

Leistungsbenchmarks

Um die Auswirkungen der Netzwerk- und Speicherkonfigurationen zu quantifizieren, wurden Benchmarks mit Google Gemma 3 12B und OpenAI GPT-OSS-120B durchgeführt. Die Ergebnisse zeigen, dass InfiniBand-Netzwerke eine 10-fache schnellere Trainingsgeschwindigkeit im Vergleich zu Standard-Ethernet bieten, während die optimale Auswahl des Speichers die Speicherung von Checkpoints um fast das Doppelte beschleunigen kann.

Netzwerkbenchmarks: Der 9-fache Leistungsunterschied

Bei den Netzwerkbenchmarks wurde ein Vergleich zwischen Standard 10 Gbit/s Ethernet und InfiniBand 400 Gbit/s durchgeführt. Die Rohbandbreite unterscheidet sich erheblich: 1,25 GB/s gegenüber etwa 400 GB/s. Dies führt zu einer signifikanten Verbesserung der Trainingsdurchsatzraten.

Speicherbenchmarks: Der versteckte Engpass

Zusätzlich wurden verschiedene Speicherkonfigurationen auf Nebius evaluiert. Die Ergebnisse zeigen, dass lokale NVMe-Speicher die schnellsten Lese- und Schreibgeschwindigkeiten bieten, jedoch nicht persistent sind. Im Gegensatz dazu bietet das Nebius Shared Filesystem eine hohe Leistung bei gleichzeitigem Speichern von Daten.

End-to-End-Leistungsvergleich

Durch die Kombination optimaler Netzwerk- und Speicherkonfigurationen kann eine 6-7-fache Verbesserung der End-to-End-Trainingsleistung erzielt werden. Dies hat direkte Auswirkungen auf die Trainingszeit und die Kosten.

Zusammenfassung

Die Wahl der Infrastruktur ist entscheidend für das Training von LLMs. Netzwerk- und Speicherkonfigurationen können erhebliche Leistungsunterschiede erzeugen, die sowohl die Trainingszeit als auch die Kosten direkt beeinflussen. Tools wie SkyPilot helfen dabei, diese Komplexität zu abstrahieren und ermöglichen es den Nutzern, sich auf die kritischen Komponenten zu konzentrieren.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar