Beiträge

Programmierung von Tensor Cores auf NVIDIA Blackwell GPUs
/
0 Kommentare
In diesem Artikel wird die Programmierung von Tensor Cores auf den neuesten NVIDIA Blackwell GPUs behandelt, einschließlich eines Tutorials zur Implementierung eines Matrixmultiplikationskerns, der 98% der Geschwindigkeit von CuBLAS erreicht.

Cutlass in CUDA und Triton: Optimierung für maximale Leistung
In diesem Artikel erfahren Sie, wie das Hinzufügen von 'cutlass' zu Ihrem CUDA- oder Triton-Kernelname die Leistung erheblich steigern kann. Wir untersuchen technische Details, Benchmarks und praktische Anwendungshinweise.

cuTile Python: Eine Einführung in die parallele Programmierung für NVIDIA GPUs
cuTile Python ist eine Programmiersprache für die parallele Programmierung auf NVIDIA GPUs. In diesem Artikel werden die Grundlagen, die Installation und die Nutzung von cuTile Python behandelt, sowie Anwendungsbeispiele vorgestellt.
AlphaFold auf einem MacBook Air: Revolutionäre Möglichkeiten mit Apple Silicon
Erfahren Sie, wie AlphaFold auf einem MacBook Air mit Apple Silicon läuft und welche Vorteile das MLX-Framework für wissenschaftliche Berechnungen bietet.

Wie GPU Matmul-Kernels funktionieren
Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.

Verstehen der GPU-Architektur
In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.

Produktionstaugliche CUDA-Kernels erstellen
In diesem Artikel erfahren Sie, wie Sie produktionstaugliche CUDA-Kernels mit der Kernel-Builder-Bibliothek von Hugging Face erstellen und bereitstellen können.

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen
In diesem Artikel wird die Optimierung von Mixture-of-Experts (MoE) Modellen durch benutzerdefinierte CUDA-Kerne und MXFP8 Quantisierung behandelt, die zu signifikanten Geschwindigkeitsvorteilen führen.
