Beiträge

Artikelbild für den Artikel: Programmierung von Tensor Cores auf NVIDIA Blackwell GPUs

Programmierung von Tensor Cores auf NVIDIA Blackwell GPUs

/
In diesem Artikel wird die Programmierung von Tensor Cores auf den neuesten NVIDIA Blackwell GPUs behandelt, einschließlich eines Tutorials zur Implementierung eines Matrixmultiplikationskerns, der 98% der Geschwindigkeit von CuBLAS erreicht.
Artikelbild für den Artikel: Cutlass in CUDA und Triton: Optimierung für maximale Leistung

Cutlass in CUDA und Triton: Optimierung für maximale Leistung

/
In diesem Artikel erfahren Sie, wie das Hinzufügen von 'cutlass' zu Ihrem CUDA- oder Triton-Kernelname die Leistung erheblich steigern kann. Wir untersuchen technische Details, Benchmarks und praktische Anwendungshinweise.
Artikelbild für den Artikel: cuTile Python: Eine Einführung in die parallele Programmierung für NVIDIA GPUs

cuTile Python: Eine Einführung in die parallele Programmierung für NVIDIA GPUs

/
cuTile Python ist eine Programmiersprache für die parallele Programmierung auf NVIDIA GPUs. In diesem Artikel werden die Grundlagen, die Installation und die Nutzung von cuTile Python behandelt, sowie Anwendungsbeispiele vorgestellt.
Artikelbild für den Artikel: AlphaFold auf einem MacBook Air: Revolutionäre Möglichkeiten mit Apple Silicon

AlphaFold auf einem MacBook Air: Revolutionäre Möglichkeiten mit Apple Silicon

/
Erfahren Sie, wie AlphaFold auf einem MacBook Air mit Apple Silicon läuft und welche Vorteile das MLX-Framework für wissenschaftliche Berechnungen bietet.
Artikelbild für den Artikel: Wie GPU Matmul-Kernels funktionieren

Wie GPU Matmul-Kernels funktionieren

/
Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.
Artikelbild für den Artikel: Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

/
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.
Artikelbild für den Artikel: Verstehen der GPU-Architektur

Verstehen der GPU-Architektur

/
In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.
Artikelbild für den Artikel: Produktionstaugliche CUDA-Kernels erstellen

Produktionstaugliche CUDA-Kernels erstellen

/
In diesem Artikel erfahren Sie, wie Sie produktionstaugliche CUDA-Kernels mit der Kernel-Builder-Bibliothek von Hugging Face erstellen und bereitstellen können.
Artikelbild für den Artikel: Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen

/
In diesem Artikel wird die Optimierung von Mixture-of-Experts (MoE) Modellen durch benutzerdefinierte CUDA-Kerne und MXFP8 Quantisierung behandelt, die zu signifikanten Geschwindigkeitsvorteilen führen.