Beiträge

Artikelbild für den Artikel: Disaggregierte Inferenz mit PyTorch und vLLM

Disaggregierte Inferenz mit PyTorch und vLLM

/
Die Integration von PyTorch und vLLM durch Meta verbessert die Effizienz generativer KI-Anwendungen durch die Disaggregation von Prefill und Decode, was zu optimierter Inferenzgeschwindigkeit und -effizienz führt.
Artikelbild für den Artikel: Die Optimierung von PyTorch-Inferenz auf Apple-Geräten durch KI-generierte Metal-Kernels

Die Optimierung von PyTorch-Inferenz auf Apple-Geräten durch KI-generierte Metal-Kernels

/
Eine neue Studie zeigt, dass KI-generierte Metal-Kernels die Inferenzgeschwindigkeit von PyTorch auf Apple-Geräten um 87% steigern können.
Artikelbild für den Artikel: Produktionstaugliche CUDA-Kernels erstellen

Produktionstaugliche CUDA-Kernels erstellen

/
In diesem Artikel erfahren Sie, wie Sie produktionstaugliche CUDA-Kernels mit der Kernel-Builder-Bibliothek von Hugging Face erstellen und bereitstellen können.
Artikelbild für den Artikel: Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle

Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle

/
Der Artikel behandelt die Optimierung des Triton BF16 Grouped GEMM-Kernels für Mixture-of-Experts-Modelle in PyTorch und beschreibt verschiedene Techniken zur Leistungssteigerung.
Artikelbild für den Artikel: Optimierung des Checkpointings mit PyTorch DCP

Optimierung des Checkpointings mit PyTorch DCP

/
In diesem Artikel erfahren Sie, wie die Ingenieure von PyTorch die Größe von Checkpoints um 22 % reduzieren konnten, indem sie einen modularen Kompressionsansatz verwendet haben.
Artikelbild für den Artikel: PyTorch und vLLM: Vertiefte Integration für effiziente LLM-Inferenz

PyTorch und vLLM: Vertiefte Integration für effiziente LLM-Inferenz

/
Die vertiefte Integration von PyTorch und vLLM bietet neue Möglichkeiten für die effiziente Inferenz von großen Sprachmodellen und optimiert generative KI-Anwendungen.
Artikelbild für den Artikel: DeepNVMe Upgrade: Effiziente I/O-Skalierung für Deep Learning Anwendungen

DeepNVMe Upgrade: Effiziente I/O-Skalierung für Deep Learning Anwendungen

/
In diesem Artikel erfahren Sie alles über die neuesten Verbesserungen von DeepNVMe, einer Technologie zur Optimierung von I/O-Prozessen in Deep Learning Anwendungen.
Artikelbild für den Artikel: LOW-BIT QUANTIZATION WITH PARETOQ

LOW-BIT QUANTIZATION WITH PARETOQ

/
ParetoQ ist ein neuer Trainingsalgorithmus, der binäre, ternäre und 2- bis 4-Bit-Quantisierung vereint und dabei erstklassige Ergebnisse auf allen Ebenen erzielt.
Artikelbild für den Artikel: Hugging Face Safetensors jetzt in PyTorch Distributed Checkpointing unterstützt

Hugging Face Safetensors jetzt in PyTorch Distributed Checkpointing unterstützt

/
Die Unterstützung von Hugging Face Safetensors im PyTorch Distributed Checkpointing stellt einen bedeutenden Fortschritt in der Interoperabilität zwischen verschiedenen Modellformaten dar.