Artikelbild für den Artikel: Groq tritt Hugging Face Inference bei

Groq tritt Hugging Face Inference bei

Wir freuen uns, mitteilen zu können, dass Groq jetzt als unterstützter Inference Provider auf dem Hugging Face Hub verfügbar ist! Mit dieser Integration erweitert Groq das bestehende Ökosystem und verbessert die Möglichkeiten für serverlose Inferenz direkt auf den Modellseiten des Hubs.

Einführung in Groq und seine Technologie

Groq bietet eine Vielzahl von Text- und Konversationsmodellen an, darunter die neuesten Open-Source-Modelle wie Meta’s LLama 4 und Qwen’s QWQ-32B. Im Zentrum der Technologie von Groq steht die Language Processing Unit (LPU™), ein neuartiges End-to-End-Verarbeitungssystem, das die schnellste Inferenz für rechenintensive Anwendungen mit sequenziellen Komponenten, wie z.B. Large Language Models (LLMs), ermöglicht.

Vorteile der Groq-Inferenz

Die LPUs von Groq sind so konzipiert, dass sie die Einschränkungen von GPUs bei der Inferenz überwinden. Sie bieten eine signifikant niedrigere Latenz und eine höhere Durchsatzrate, was sie ideal für Echtzeit-KI-Anwendungen macht. Groq ermöglicht eine schnelle KI-Inferenz für öffentlich verfügbare Modelle und bietet eine API, die Entwicklern die einfache Integration dieser Modelle in ihre Anwendungen erleichtert.

Integration in Hugging Face

Die Inferenz-Provider von Groq sind nahtlos in die Client-SDKs von Hugging Face (sowohl für JS als auch für Python) integriert, was die Nutzung einer Vielzahl von Modellen mit den bevorzugten Anbietern extrem einfach macht. Nutzer können in ihren Kontoeinstellungen eigene API-Schlüssel für die Anbieter festlegen, mit denen sie sich angemeldet haben. Wenn kein benutzerdefinierter Schlüssel gesetzt ist, werden die Anfragen über Hugging Face geleitet.

Wie funktioniert die Nutzung von Groq?

Es gibt zwei Modi, wenn man Inference Providers aufruft:

  • Benutzerdefinierter Schlüssel: Anfragen gehen direkt an den Inference Provider unter Verwendung des eigenen API-Schlüssels des entsprechenden Anbieters.
  • Über Hugging Face geleitet: In diesem Fall benötigen Sie keinen Token vom Anbieter, und die Kosten werden direkt Ihrem Hugging Face-Konto belastet.

Beispielanwendungen

Hier ist ein Beispiel, wie man Meta’s LLama 4 mit Groq als Inference Provider in Python verwenden kann:

import os
from huggingface_hub import InferenceClient

client = InferenceClient(provider="groq", api_key=os.environ["HF_TOKEN"])

messages = [
    {"role": "user", "content": "Was ist die Hauptstadt von Frankreich?"}
]

completion = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=messages,
)

print(completion.choices[0].message)

Preismodell und Vorteile für Nutzer

Für direkte Anfragen, d.h. wenn Sie den Schlüssel eines Inference Providers verwenden, werden Sie von diesem Anbieter abgerechnet. Bei über Hugging Face geleiteten Anfragen zahlen Sie nur die Standardpreise des Anbieters. PRO-Nutzer erhalten jeden Monat $2 an Inferenzguthaben, die sie über Anbieter hinweg verwenden können. Es wird empfohlen, auf den Hugging Face PRO-Plan zu abonnieren, um Zugang zu Inferenzguthaben, ZeroGPU, Spaces Dev Mode und höheren Limits zu erhalten.

Feedback und Ausblick

Wir würden uns freuen, Ihr Feedback zu erhalten! Teilen Sie uns Ihre Gedanken oder Kommentare mit.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar