Beiträge

Artikelbild für den Artikel: Optimierung von GLM4-MoE-Modellen mit SGLang

Optimierung von GLM4-MoE-Modellen mit SGLang

/
In diesem Artikel werden die neuesten Leistungsoptimierungen für GLM4-MoE-Modelle von Novita AI vorgestellt, die auf SGLang basieren. Die Optimierungen zielen darauf ab, die Effizienz und Geschwindigkeit in der Inferenzpipeline erheblich zu steigern.
Artikelbild für den Artikel: Skalierung von Billionen-Parameter-Modellen mit Pipeline Parallelism

Skalierung von Billionen-Parameter-Modellen mit Pipeline Parallelism

/
In diesem Artikel wird die Implementierung von Pipeline Parallelism in SGLang zur Skalierung von Modellen mit Billionen von Parametern behandelt. Der Fokus liegt auf der Optimierung für ultra-lange Kontextinferenz und der Reduzierung von Latenzzeiten.