CUDA - Trend Forge

Beiträge

Wie GPU Matmul-Kernels funktionieren

30. September 2025

Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

29. September 2025

0 Kommentare

Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.

Verstehen der GPU-Architektur

15. September 2025

0 Kommentare

In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.

Produktionstaugliche CUDA-Kernels erstellen

25. August 2025

0 Kommentare

In diesem Artikel erfahren Sie, wie Sie produktionstaugliche CUDA-Kernels mit der Kernel-Builder-Bibliothek von Hugging Face erstellen und bereitstellen können.

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen

20. August 2025

0 Kommentare

In diesem Artikel wird die Optimierung von Mixture-of-Experts (MoE) Modellen durch benutzerdefinierte CUDA-Kerne und MXFP8 Quantisierung behandelt, die zu signifikanten Geschwindigkeitsvorteilen führen.

Beiträge

Wie GPU Matmul-Kernels funktionieren

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

Verstehen der GPU-Architektur

Produktionstaugliche CUDA-Kernels erstellen

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen

Über uns

Archive

Kategorien

Schlagwortarchiv für: CUDA

Beiträge

Über uns

Archive

Kategorien

Schlagwörter