Beiträge

Artikelbild für den Artikel: Warp-Spezialisierung in Triton: Design und Roadmap

Warp-Spezialisierung in Triton: Design und Roadmap

/
In diesem Artikel wird die Warp-Spezialisierung in Triton, einem Compiler für KI-Kernels, behandelt. Es werden die Implementierung, Vorteile und zukünftige Entwicklungen dieser Technik vorgestellt.
Artikelbild für den Artikel: Cutlass in CUDA und Triton: Optimierung für maximale Leistung

Cutlass in CUDA und Triton: Optimierung für maximale Leistung

/
In diesem Artikel erfahren Sie, wie das Hinzufügen von 'cutlass' zu Ihrem CUDA- oder Triton-Kernelname die Leistung erheblich steigern kann. Wir untersuchen technische Details, Benchmarks und praktische Anwendungshinweise.
Artikelbild für den Artikel: Helion: Eine hochgradige DSL für leistungsfähige und portable ML-Kerne

Helion: Eine hochgradige DSL für leistungsfähige und portable ML-Kerne

/
Helion ist eine hochgradige, Python-embedded DSL für maschinelles Lernen, die eine neue Abstraktionsebene bietet, um benutzerdefinierte Kerne zu erstellen, die in Triton kompiliert werden. Der Artikel beleuchtet die Vorteile, die Programmiermodelle und die Leistungsanalyse von Helion.
Artikelbild für den Artikel: Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle

Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle

/
Der Artikel behandelt die Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle in PyTorch und beschreibt verschiedene Techniken zur Leistungssteigerung.