Beiträge

Artikelbild für den Artikel: Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

/
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.
Artikelbild für den Artikel: Tricks von OpenAI GPT-OSS, die Sie mit Transformers verwenden können

Tricks von OpenAI GPT-OSS, die Sie mit Transformers verwenden können

/
In diesem Artikel werden die neuen Techniken und Verbesserungen der GPT-OSS-Modelle von OpenAI untersucht, die in die Transformers-Bibliothek integriert wurden.
Artikelbild für den Artikel: Wie Aufmerksamkeitssinks Sprachmodelle stabil halten

Wie Aufmerksamkeitssinks Sprachmodelle stabil halten

/
In diesem Artikel untersuchen wir das Konzept der Aufmerksamkeitssinks in Sprachmodellen und wie sie dazu beitragen, die Stabilität während langer Gespräche zu gewährleisten.