Beiträge

Warp-Spezialisierung in Triton: Design und Roadmap
/
0 Kommentare
In diesem Artikel wird die Warp-Spezialisierung in Triton, einem Compiler für KI-Kernels, behandelt. Es werden die Implementierung, Vorteile und zukünftige Entwicklungen dieser Technik vorgestellt.

Cutlass in CUDA und Triton: Optimierung für maximale Leistung
In diesem Artikel erfahren Sie, wie das Hinzufügen von 'cutlass' zu Ihrem CUDA- oder Triton-Kernelname die Leistung erheblich steigern kann. Wir untersuchen technische Details, Benchmarks und praktische Anwendungshinweise.

Helion: Eine hochgradige DSL für leistungsfähige und portable ML-Kerne
Helion ist eine hochgradige, Python-embedded DSL für maschinelles Lernen, die eine neue Abstraktionsebene bietet, um benutzerdefinierte Kerne zu erstellen, die in Triton kompiliert werden. Der Artikel beleuchtet die Vorteile, die Programmiermodelle und die Leistungsanalyse von Helion.

Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle
Der Artikel behandelt die Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle in PyTorch und beschreibt verschiedene Techniken zur Leistungssteigerung.
