Beiträge

Wie GPU Matmul-Kernels funktionieren
/
0 Kommentare
Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.

Verstehen der GPU-Architektur
In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.

Produktionstaugliche CUDA-Kernels erstellen
In diesem Artikel erfahren Sie, wie Sie produktionstaugliche CUDA-Kernels mit der Kernel-Builder-Bibliothek von Hugging Face erstellen und bereitstellen können.

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen
In diesem Artikel wird die Optimierung von Mixture-of-Experts (MoE) Modellen durch benutzerdefinierte CUDA-Kerne und MXFP8 Quantisierung behandelt, die zu signifikanten Geschwindigkeitsvorteilen führen.