Beiträge

Wie GPU Matmul-Kernels funktionieren
/
0 Kommentare
Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.

Nvidia und Intels 5-Milliarden-Dollar-Deal: Ein strategischer Schritt gegen AMD
Nvidia und Intel haben eine Partnerschaft im Wert von 5 Milliarden Dollar angekündigt, die sich auf die Schaffung einer überlegenen GPU-CPU-SoC-Integration konzentriert, um gegen AMD zu konkurrieren.

Einführung in Gluon für GPU-Entwicklung
Einführung in die Programmierung mit Gluon für GPU-Entwicklung. Gluon ist ein flexibles und benutzerfreundliches Framework für die Entwicklung von Deep Learning-Modellen, das von Amazon und Microsoft entwickelt wurde.

Verstehen der GPU-Architektur
In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.

Der Wettlauf um den Aufbau einer verteilten GPU-Laufzeit
NVIDIA und AMD befinden sich in einem Wettlauf, um die Herausforderungen der Datenbewegung auf Cluster-Ebene zu bewältigen. Der Artikel beleuchtet die Entwicklungen im Bereich der verteilten GPU-Laufzeiten und die Initiativen beider Unternehmen.

NVIDIA meldet Rekordumsätze im Zuge des AI-Booms
Nvidia meldet Rekordumsätze von 46,7 Milliarden US-Dollar, angetrieben durch das Wachstum im AI-Bereich. CEO Jensen Huang spricht von einer revolutionären Plattform und einer vielversprechenden Zukunft.

Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick
Cloudflare hat mit Omni eine Plattform entwickelt, die es ermöglicht, KI-Modelle effizienter auf Edge-Knoten zu betreiben. Der Artikel beleuchtet die Architektur von Omni und die Vorteile der GPU-Nutzung.

Lemonade: Leistungsstarke lokale LLMs für Entwickler und Forscher
Lemonade ist ein leistungsstarker Server, der es Nutzern ermöglicht, lokale LLMs mit höchster Performance zu betreiben, indem er moderne Inferenz-Engines für NPUs und GPUs konfiguriert.