Triton - Trend Forge

Beiträge

Warp-Spezialisierung in Triton: Design und Roadmap

9. Januar 2026

In diesem Artikel wird die Warp-Spezialisierung in Triton, einem Compiler für KI-Kernels, behandelt. Es werden die Implementierung, Vorteile und zukünftige Entwicklungen dieser Technik vorgestellt.

Cutlass in CUDA und Triton: Optimierung für maximale Leistung

16. Dezember 2025

0 Kommentare

In diesem Artikel erfahren Sie, wie das Hinzufügen von 'cutlass' zu Ihrem CUDA- oder Triton-Kernelname die Leistung erheblich steigern kann. Wir untersuchen technische Details, Benchmarks und praktische Anwendungshinweise.

Helion: Eine hochgradige DSL für leistungsfähige und portable ML-Kerne

23. Oktober 2025

0 Kommentare

Helion ist eine hochgradige, Python-embedded DSL für maschinelles Lernen, die eine neue Abstraktionsebene bietet, um benutzerdefinierte Kerne zu erstellen, die in Triton kompiliert werden. Der Artikel beleuchtet die Vorteile, die Programmiermodelle und die Leistungsanalyse von Helion.

Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle

20. August 2025

0 Kommentare

Der Artikel behandelt die Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle in PyTorch und beschreibt verschiedene Techniken zur Leistungssteigerung.

Beiträge

Warp-Spezialisierung in Triton: Design und Roadmap

Cutlass in CUDA und Triton: Optimierung für maximale Leistung

Helion: Eine hochgradige DSL für leistungsfähige und portable ML-Kerne

Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle

Über uns

Archive

Kategorien

Schlagwortarchiv für: Triton

Beiträge

Über uns

Archive

Kategorien

Schlagwörter