Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick

Die Nachfrage nach KI-Produkten wächst stetig, und Entwickler arbeiten daran, eine Vielzahl von Modellen zu erstellen und zu optimieren. In diesem Kontext hat Cloudflare die interne Plattform Omni entwickelt, die darauf abzielt, KI-Modelle effizient auf Edge-Knoten zu betreiben. Omni verbessert die Verfügbarkeit der Modelle, minimiert die Latenz und reduziert den Stromverbrauch von inaktiven GPUs.

Die Architektur von Omni – Ein Überblick

Omni ist eine Plattform, die speziell für den Betrieb von KI-Modellen konzipiert wurde. Bei einer Anfrage zur Inferenz auf Workers AI lädt das System die Konfiguration des Modells aus Workers KV und leitet die Anfrage an die nächstgelegene Omni-Instanz weiter, die über ausreichende Kapazitäten verfügt. Omni führt einige Überprüfungen der Anfrage durch, verarbeitet die spezifischen Anforderungen des Modells und leitet die Anfrage dann an das entsprechende Modell weiter.

Elastisches Skalieren durch das Starten mehrerer Modelle

Traditionell erfordert die Entwicklung einer KI-Anwendung, dass ein Container oder eine VM einem einzelnen Modell zugewiesen wird, was jedoch ressourcenintensiv ist. Omni hingegen verwendet einen einzigen Steuerungsmechanismus, den Scheduler, der automatisch Modelle bereitstellt und neue Instanzen basierend auf dem Verkehrsaufkommen erstellt. Dies ermöglicht eine effiziente Verwaltung der Infrastruktur und reduziert den Aufwand für die Bereitstellung.

Implementierung von leichtgewichtiger Prozess- und Python-Isolation

Um mehrere Modelle in einem einzigen Container unterzubringen, implementiert Omni eine feinere Kontrolle über CPU-Speicher und isoliert die Modelle von ihren Abhängigkeiten. Dies geschieht durch die Verwendung von Namespaces und cgroups, um sicherzustellen, dass jedes Modell seine eigenen konfigurierbaren Speicherlimits hat. Diese Isolation verhindert, dass ein Modell den gesamten Speicher eines Containers beansprucht und andere Modelle beeinträchtigt.

Überbelegung von GPU-Speicher zur Ausführung mehrerer Modelle

Ein zentrales Merkmal von Omni ist die Fähigkeit, GPU-Speicher sicher zu überbelegen. Dies bedeutet, dass mehr Modelle als physisch verfügbar auf einer GPU ausgeführt werden können. Aktuell ist Omni so konfiguriert, dass es 13 Modelle auf einer einzigen GPU betreibt, was zu einer Einsparung von vier GPUs führt. Dies wird durch die Verwendung einer CUDA-Stubs-Bibliothek erreicht, die CUDA-Speicheranforderungen abfängt und die Speicherzuweisungen im einheitlichen Speicher-Modus durchführt.

Wie Omni mehrere Modelle für Workers AI betreibt

Omni integriert verschiedene Inferenz-Engines und bietet eine einheitliche Schicht für die Verwaltung von KI-Modellen. Dies ermöglicht es den Ingenieuren von Cloudflare, neue Modelle einfacher hinzuzufügen und die Leistung der gesamten Workers AI-Plattform zu verbessern. Die Plattform ermöglicht es, Modelle schnell zu starten und zu stoppen und bietet eine isolierte Dateisystemumgebung zur Verwaltung von Abhängigkeiten.

Fazit

Die Einführung von Omni hat es Cloudflare ermöglicht, KI-Modelle effizienter zu betreiben, indem mehrere Modelle von einem einzigen Steuerungsmechanismus aus gestartet werden. Diese Innovation verbessert die Leistung der gesamten Workers AI-Plattform, senkt die Kosten für den Betrieb von GPUs und ermöglicht es, neue Modelle und Funktionen schnell und sicher bereitzustellen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Wie Cloudflare mehr KI-Modelle mit weniger GPUs betreibt: Ein technischer Einblick

Die Architektur von Omni – Ein Überblick

Elastisches Skalieren durch das Starten mehrerer Modelle

Implementierung von leichtgewichtiger Prozess- und Python-Isolation

Überbelegung von GPU-Speicher zur Ausführung mehrerer Modelle

Wie Omni mehrere Modelle für Workers AI betreibt

Fazit

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Die Architektur von Omni – Ein Überblick

Elastisches Skalieren durch das Starten mehrerer Modelle

Implementierung von leichtgewichtiger Prozess- und Python-Isolation

Überbelegung von GPU-Speicher zur Ausführung mehrerer Modelle

Wie Omni mehrere Modelle für Workers AI betreibt

Fazit

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter