Schlagwortarchiv für: SGLang

Beiträge

Optimierung von GLM4-MoE-Modellen mit SGLang

22. Januar 2026

In diesem Artikel werden die neuesten Leistungsoptimierungen für GLM4-MoE-Modelle von Novita AI vorgestellt, die auf SGLang basieren. Die Optimierungen zielen darauf ab, die Effizienz und Geschwindigkeit in der Inferenzpipeline erheblich zu steigern.

Skalierung von Billionen-Parameter-Modellen mit Pipeline Parallelism

19. Januar 2026

0 Kommentare

In diesem Artikel wird die Implementierung von Pipeline Parallelism in SGLang zur Skalierung von Modellen mit Billionen von Parametern behandelt. Der Fokus liegt auf der Optimierung für ultra-lange Kontextinferenz und der Reduzierung von Latenzzeiten.

Beiträge

Optimierung von GLM4-MoE-Modellen mit SGLang

Skalierung von Billionen-Parameter-Modellen mit Pipeline Parallelism

Über uns

Archive

Kategorien

Schlagwortarchiv für: SGLang

Beiträge

Über uns

Archive

Kategorien

Schlagwörter