Beiträge

Artikelbild für den Artikel: OpenAI setzt auf Audio-KI: Die Zukunft der Interaktion

OpenAI setzt auf Audio-KI: Die Zukunft der Interaktion

/
OpenAI hat seine Teams reorganisiert, um Audio-KI-Modelle zu entwickeln und plant, innerhalb eines Jahres ein audio-zentriertes persönliches Gerät auf den Markt zu bringen. Der Artikel beleuchtet die Entwicklungen im Audio-Technologiemarkt und die Rolle von Audio als zukünftige Schnittstelle.
Artikelbild für den Artikel: Google testet 30-minütige Audio-Vorlesungen auf NotebookLM

Google testet 30-minütige Audio-Vorlesungen auf NotebookLM

/
Google testet ein neues Format für Audio-Vorlesungen auf NotebookLM, das eine umfassende AI-generierte Vorlesung von etwa 30 Minuten Länge bietet. Diese Vorlesungen sollen in verschiedenen Sprachen verfügbar sein und richten sich an Studierende, Forscher und Berufstätige.
Artikelbild für den Artikel: Voxtral: Die Zukunft der multimodalen Audio-Chat-Modelle

Voxtral: Die Zukunft der multimodalen Audio-Chat-Modelle

/
Die neuen multimodalen Audio-Chat-Modelle Voxtral Mini und Small revolutionieren die Sprach- und Audioverarbeitung, indem sie sowohl gesprochene Sprache als auch Text verstehen und verarbeiten.
Artikelbild für den Artikel: VOXTRAL: MISTRAL'S OPEN-SOURCE AUDIO MODEL

VOXTRAL: MISTRAL’S OPEN-SOURCE AUDIO MODEL

/
Voxtral von Mistral ist ein Open-Source-Audiomodell, das leistungsstarke Funktionen für die Sprachverarbeitung bietet. Mit zwei Varianten zielt es darauf ab, die Lücke zwischen proprietären und Open-Source-Lösungen zu schließen.
Artikelbild für den Artikel: ElevenLabs präsentiert den persönlichen KI-Sprachassistenten 11.ai

ElevenLabs präsentiert den persönlichen KI-Sprachassistenten 11.ai

/
Mit der Einführung von 11.ai setzt ElevenLabs einen neuen Standard für Sprachassistenten, die nicht nur Fragen beantworten, sondern auch aktiv in den Arbeitsablauf eingreifen können.
Artikelbild für den Artikel: Die Zukunft der Sprachsynthese: Bland AI revolutioniert TTS mit LLM-gestützter Audiogenerierung

Die Zukunft der Sprachsynthese: Bland AI revolutioniert TTS mit LLM-gestützter Audiogenerierung

/
Bland AI hat die Technologie der Text-zu-Sprache (TTS) neu gedacht, indem große Sprachmodelle verwendet werden, um Audio direkt aus Text vorherzusagen. In diesem Artikel werfen wir einen detaillierten Blick auf die technischen Grundlagen, Herausforderungen und Möglichkeiten, die sich aus dieser innovativen Herangehensweise ergeben.
Artikelbild für den Artikel: Warum der neue DeepSeek R1 etwas anders klingt

Warum der neue DeepSeek R1 etwas anders klingt

/
Der neue DeepSeek R1 könnte aufgrund einer Umstellung auf synthetische Gemini-Ausgaben anders klingen. Erfahren Sie mehr über die möglichen Auswirkungen dieser Veränderung.
Artikelbild für den Artikel: WavReward: Eine Revolution in der Bewertung gesprochener Dialogsysteme

WavReward: Eine Revolution in der Bewertung gesprochener Dialogsysteme

/
WavReward ist ein innovativer Evaluator für gesprochene Dialogsysteme, der auf Audio-Sprachmodellen basiert und sowohl kognitive als auch emotionale Metriken berücksichtigt.
Artikelbild für den Artikel: STABILITY AI TEXT-TO-AUDIO MODEL: Stable Audio Open Small

STABILITY AI TEXT-TO-AUDIO MODEL: Stable Audio Open Small

/
Stability AI hat mit Stable Audio Open Small ein neues, open-source Text-zu-Audio-Modell veröffentlicht, das für die Ausführung auf Arm-CPUs optimiert ist. Mit 341 Millionen Parametern ermöglicht dieses Modell die schnelle Generierung von kurzen Audiosamples.