Beiträge

Artikelbild für den Artikel: Optimierung von LLM-Diensten mit LMCache

Optimierung von LLM-Diensten mit LMCache

/
LMCache ist eine Open-Source-KV-Cache-Beschleunigungsschicht für LLMs, die die Leistung durch Speicherung und Wiederverwendung von Schlüssel-Wert-Caches optimiert.
Artikelbild für den Artikel: Disaggregierte Inferenz mit PyTorch und vLLM

Disaggregierte Inferenz mit PyTorch und vLLM

/
Die Integration von PyTorch und vLLM durch Meta verbessert die Effizienz generativer KI-Anwendungen durch die Disaggregation von Prefill und Decode, was zu optimierter Inferenzgeschwindigkeit und -effizienz führt.
Artikelbild für den Artikel: Die Anatomie eines Hochdurchsatz-LLM-Inferenzsystems

Die Anatomie eines Hochdurchsatz-LLM-Inferenzsystems

/
In diesem Artikel werfen wir einen detaillierten Blick auf vLLM, ein modernes Hochdurchsatz-LLM-Inferenzsystem, das entwickelt wurde, um die Herausforderungen der Verarbeitung großer Sprachmodelle zu bewältigen.