Beiträge

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen
/
0 Kommentare
In diesem Artikel wird die Optimierung von Mixture-of-Experts (MoE) Modellen durch benutzerdefinierte CUDA-Kerne und MXFP8 Quantisierung behandelt, die zu signifikanten Geschwindigkeitsvorteilen führen.