Beiträge

Artikelbild für den Artikel: Wie GPU Matmul-Kernels funktionieren

Wie GPU Matmul-Kernels funktionieren

/
Der Artikel behandelt die Architektur und Techniken hinter der hochleistungsfähigen Matrixmultiplikation auf NVIDIA GPUs, insbesondere der Hopper-Architektur, und erläutert die Bedeutung von Speicherverwaltung und Programmiermodellen für die Entwicklung effizienter GPU-Kernels.
Artikelbild für den Artikel: Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

Flash Attention 4: Optimierung der Aufmerksamkeitsberechnungen in Transformern

/
Flash Attention 4 ist ein neu optimierter CUDA-Kernel zur Beschleunigung der Aufmerksamkeitsberechnungen in Transformern. Der Artikel beleuchtet die Funktionsweise, Architektur und Optimierungen von Flash Attention 4 sowie die Herausforderungen in der GPU-Programmierung.
Artikelbild für den Artikel: Nvidia und Intels 5-Milliarden-Dollar-Deal: Ein strategischer Schritt gegen AMD

Nvidia und Intels 5-Milliarden-Dollar-Deal: Ein strategischer Schritt gegen AMD

/
Nvidia und Intel haben eine Partnerschaft im Wert von 5 Milliarden Dollar angekündigt, die sich auf die Schaffung einer überlegenen GPU-CPU-SoC-Integration konzentriert, um gegen AMD zu konkurrieren.
Artikelbild für den Artikel: Einführung in Gluon für GPU-Entwicklung

Einführung in Gluon für GPU-Entwicklung

/
Einführung in die Programmierung mit Gluon für GPU-Entwicklung. Gluon ist ein flexibles und benutzerfreundliches Framework für die Entwicklung von Deep Learning-Modellen, das von Amazon und Microsoft entwickelt wurde.
Artikelbild für den Artikel: Verstehen der GPU-Architektur

Verstehen der GPU-Architektur

/
In diesem Artikel untersuchen wir die grundlegenden Merkmale von GPUs, ihren Unterschied zu CPUs und die Programmierung auf diesen leistungsstarken Geräten.
Artikelbild für den Artikel: Der Wettlauf um den Aufbau einer verteilten GPU-Laufzeit

Der Wettlauf um den Aufbau einer verteilten GPU-Laufzeit

/
NVIDIA und AMD befinden sich in einem Wettlauf, um die Herausforderungen der Datenbewegung auf Cluster-Ebene zu bewältigen. Der Artikel beleuchtet die Entwicklungen im Bereich der verteilten GPU-Laufzeiten und die Initiativen beider Unternehmen.
Artikelbild für den Artikel: NVIDIA meldet Rekordumsätze im Zuge des AI-Booms

NVIDIA meldet Rekordumsätze im Zuge des AI-Booms

/
Nvidia meldet Rekordumsätze von 46,7 Milliarden US-Dollar, angetrieben durch das Wachstum im AI-Bereich. CEO Jensen Huang spricht von einer revolutionären Plattform und einer vielversprechenden Zukunft.
Artikelbild für den Artikel: Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick

Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick

/
Cloudflare hat mit Omni eine Plattform entwickelt, die es ermöglicht, KI-Modelle effizienter auf Edge-Knoten zu betreiben. Der Artikel beleuchtet die Architektur von Omni und die Vorteile der GPU-Nutzung.
Artikelbild für den Artikel: Lemonade: Leistungsstarke lokale LLMs für Entwickler und Forscher

Lemonade: Leistungsstarke lokale LLMs für Entwickler und Forscher

/
Lemonade ist ein leistungsstarker Server, der es Nutzern ermöglicht, lokale LLMs mit höchster Performance zu betreiben, indem er moderne Inferenz-Engines für NPUs und GPUs konfiguriert.