Blitzschnelle Transkriptionen mit Hugging Face Whisper Endpoint
Hugging Face hat einen neuen Whisper Endpoint veröffentlicht, der Transkriptionen bis zu 8-mal schneller liefert. Dieser Endpoint ermöglicht die einfache Bereitstellung optimierter, kosteneffizienter Modelle für Sprachaufgaben über die Inference Endpoints.
Einführung in den Whisper Endpoint
Mit dem neuen Whisper Endpoint von Hugging Face wird die Bereitstellung leistungsstarker Transkriptionsmodelle zum Kinderspiel. Die neue Lösung bietet signifikante Leistungsverbesserungen im Vergleich zur vorherigen Version und ermöglicht es Nutzern, mit nur einem Klick dedizierte Modelle für Transkriptionen zu implementieren. Diese Entwicklung ist das Ergebnis der hervorragenden Arbeit der KI-Community und zielt darauf ab, die Inference Endpoints noch mehr auf die Bedürfnisse der Community auszurichten.
Technische Details des Inference Stacks
Der neue Whisper Endpoint nutzt bemerkenswerte Open-Source-Projekte. Die Inferenz wird durch das vLLM-Projekt unterstützt, das effiziente Möglichkeiten zur Ausführung von KI-Modellen auf verschiedenen Hardwarefamilien bietet, insbesondere auf NVIDIA GPUs. Die Implementierung des Whisper-Modells von OpenAI ermöglicht tiefere, niedrigere Optimierungen im Software-Stack.
In dieser ersten Version konzentrieren wir uns auf NVIDIA GPUs mit Rechenfähigkeiten von 8.9 oder besser (Ada Lovelace), wie L4 & L40s. Dies ermöglicht eine Vielzahl von Softwareoptimierungen:
- PyTorch-Kompilierung (torch.compile)
- CUDA-Grafiken
- float8 KV-Cache
Die Kompilierung mit torch.compile generiert optimierte Kerne in einer Just-In-Time (JIT) Weise, die den Berechnungsgraphen ändern, Operationen umsortieren und spezialisierte Methoden aufrufen kann. CUDA-Grafiken zeichnen den Fluss sequentieller Operationen auf und versuchen, diese als größere Arbeitseinheiten zu gruppieren, was die Datenbewegungen und Synchronisationen reduziert.
Benchmark-Tests und Ergebnisse
Die Whisper Large V3 zeigt eine nahezu 8-fache Verbesserung in der Real-Time-Faktor (RTFx), was eine viel schnellere Inferenz ohne Verlust der Transkriptionsqualität ermöglicht. Wir haben die Transkriptionsqualität und die Laufzeiteffizienz mehrerer Whisper-basierter Modelle bewertet und sie mit ihren Implementierungen in der Transformers-Bibliothek verglichen.
Wir berechneten die Wortfehlerquote (WER) über 8 Standarddatensätze vom Open ASR Leaderboard, darunter AMI, GigaSpeech und LibriSpeech. Diese Datensätze decken verschiedene Bereiche und Aufnahmebedingungen ab, um eine robuste Bewertung der Transkriptionsqualität zu gewährleisten. Alle drei Whisper-Varianten halten die WER-Leistung im Vergleich zu ihren Transformer-Baselines.
Bereitstellung des ASR Inferenz-Pipelines
Die Bereitstellung Ihrer eigenen ASR-Inferenzpipeline über Hugging Face Endpoints ist einfach. Die Endpoints ermöglichen es jedem, der KI-Modelle in produktionsbereite Umgebungen bereitstellen möchte, dies durch das Ausfüllen weniger Parameter zu tun. Um zu beginnen, wählen Sie einfach das Modell aus, das Sie bereitstellen möchten.
Die Ausführung der Inferenz auf dem bereitgestellten Modell-Endpoint kann in nur wenigen Zeilen Code in Python durchgeführt werden. Hier ist ein kleines Beispiel, um den bereitgestellten Checkpoint schnell zu testen:
import requests
ENDPOINT_URL = "https://.cloud/api/v1/audio/transcriptions" # 🌐 ersetzen Sie durch Ihre URL
HF_TOKEN = "hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 🔑 ersetzen Sie durch Ihr HF-Token
AUDIO_FILE = "sample.wav" # 🔊 Pfad zu Ihrer lokalen Audiodatei
headers = {"Authorization": f"Bearer {HF_TOKEN}"}
with open(AUDIO_FILE, "rb") as f:
files = {"file": f.read()}
response = requests.post(ENDPOINT_URL, headers=headers, files=files)
response.raise_for_status()
print("Transkript:", response.json()["text"])
Real-Time Transkriptionsanwendungen
Mit diesem blitzschnellen Endpoint ist es möglich, Echtzeit-Transkriptionsanwendungen zu erstellen. Probieren Sie dieses Beispiel aus, das mit FastRTC erstellt wurde. Sprechen Sie einfach in Ihr Mikrofon und sehen Sie, wie Ihre Sprache in Echtzeit transkribiert wird!
Fazit
Der neue Whisper Endpoint von Hugging Face stellt einen bedeutenden Fortschritt in der Transkriptionstechnologie dar. Durch die Kombination von Community-Engagement und leistungsstarker Hardware wird es für Entwickler einfacher, hochqualitative Transkriptionen in Echtzeit zu erstellen.
Quellenliste:
- Quelle: Blazing Fast Whisper Transcriptions with Inference Endpoints
- GitHub Update zu Whisper Endpoints
- Open ASR Leaderboard
- Hugging Face Endpoints
- FastRTC
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!