Beiträge

Programmierung von Tensor Cores auf NVIDIA Blackwell GPUs
/
0 Kommentare
In diesem Artikel wird die Programmierung von Tensor Cores auf den neuesten NVIDIA Blackwell GPUs behandelt, einschließlich eines Tutorials zur Implementierung eines Matrixmultiplikationskerns, der 98% der Geschwindigkeit von CuBLAS erreicht.

Wie GPU Matmul-Kernels funktionieren
Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.
