Beiträge

Artikelbild für den Artikel: Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

/
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.
Artikelbild für den Artikel: Nvidia und Intels 5-Milliarden-Dollar-Deal: Ein strategischer Schritt gegen AMD

Nvidia und Intels 5-Milliarden-Dollar-Deal: Ein strategischer Schritt gegen AMD

/
Nvidia und Intel haben eine Partnerschaft im Wert von 5 Milliarden Dollar angekündigt, die sich auf die Schaffung einer überlegenen GPU-CPU-SoC-Integration konzentriert, um gegen AMD zu konkurrieren.
Artikelbild für den Artikel: Einführung in Gluon für GPU-Entwicklung

Einführung in Gluon für GPU-Entwicklung

/
Einführung in die Programmierung mit Gluon für GPU-Entwicklung. Gluon ist ein flexibles und benutzerfreundliches Framework für die Entwicklung von Deep Learning-Modellen, das von Amazon und Microsoft entwickelt wurde.
Artikelbild für den Artikel: Verstehen der GPU-Architektur

Verstehen der GPU-Architektur

/
In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.
Artikelbild für den Artikel: Der Wettlauf um den Aufbau einer verteilten GPU-Laufzeit

Der Wettlauf um den Aufbau einer verteilten GPU-Laufzeit

/
NVIDIA und AMD befinden sich in einem Wettlauf, um die Herausforderungen der Datenbewegung auf Cluster-Ebene zu bewältigen. Der Artikel beleuchtet die Entwicklungen im Bereich der verteilten GPU-Laufzeiten und die Initiativen beider Unternehmen.
Artikelbild für den Artikel: NVIDIA meldet Rekordumsätze im Zuge des AI-Booms

NVIDIA meldet Rekordumsätze im Zuge des AI-Booms

/
Nvidia meldet Rekordumsätze von 46,7 Milliarden US-Dollar, angetrieben durch das Wachstum im AI-Bereich. CEO Jensen Huang spricht von einer revolutionären Plattform und einer vielversprechenden Zukunft.
Artikelbild für den Artikel: Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick

Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick

/
Cloudflare hat mit Omni eine Plattform entwickelt, die es ermöglicht, KI-Modelle effizienter auf Edge-Knoten zu betreiben. Der Artikel beleuchtet die Architektur von Omni und die Vorteile der GPU-Nutzung.
Artikelbild für den Artikel: Marktplatz: Mein erster Versuch, ohne Backpropagation effizient auf GPUs zu trainieren

Marktplatz: Mein erster Versuch, ohne Backpropagation effizient auf GPUs zu trainieren

/
In diesem Artikel wird ein neuartiger Ansatz zum Training von neuronalen Netzwerken ohne Backpropagation vorgestellt, der moderne GPUs effizient nutzt und die Herausforderungen sowie die Zukunftsperspektiven dieser Methode beleuchtet.
Artikelbild für den Artikel: Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen

Schnelleres MoE-Training mit benutzerdefinierten CUDA-Kernen

/
In diesem Artikel wird die Optimierung von Mixture-of-Experts (MoE) Modellen durch benutzerdefinierte CUDA-Kerne und MXFP8 Quantisierung behandelt, die zu signifikanten Geschwindigkeitsvorteilen führen.