
WEB BENCH – Eine neue Methode zur Bewertung von KI-Browser-Agenten
/
0 Kommentare
Web Bench ist ein neues Dataset zur Evaluierung von Web-Browsing-Agenten, das aus 5.750 Aufgaben auf 452 verschiedenen Websites besteht.

Google veröffentlicht MedGemma: Neue medizinische KI-Modelle für Entwickler
Google hat MedGemma, ein neues Open-Source-Modell für medizinische KI-Anwendungen, veröffentlicht. Es bietet Entwicklern leistungsstarke Werkzeuge zur Verarbeitung medizinischer Texte und Bilder.

Delaware prüft OpenAIs Umstellung auf ein gewinnorientiertes Modell
Delawares Generalstaatsanwalt bewertet den Umstrukturierungsplan von OpenAI, was den Übergang des Unternehmens zu einem gewinnorientierten Modell kompliziert.

Elon Musk versucht, OpenAIs AI-Deal in den VAE zu blockieren
Elon Musk versucht, OpenAIs Partnerschaft im AI-Campus der VAE zu blockieren, was die Verhandlungen kompliziert.

Mark Zuckerberg verkündet: Meta AI hat 1 Milliarde monatlich aktive Nutzer
Meta's künstlicher Intelligenz-Assistent hat nun eine Milliarde monatlich aktive Nutzer. CEO Mark Zuckerberg kündigte dies während der Hauptversammlung an und sprach über zukünftige Monetarisierungsstrategien.

DeepSeek veröffentlicht kleines Update für das R1-Reasoning-Modell
DeepSeek hat ein aktualisiertes R1-Reasoning-Modell auf Hugging Face veröffentlicht, das als kleines Upgrade beschrieben wird. Die Details sind spärlich, doch die Veröffentlichung könnte für Entwickler von Bedeutung sein.

YOU COULD’VE INVENTED TRANSFORMERS
Die grundlegende Architektur von LLMs kann als eine Reihe von einfachen Schritten erklärt werden, die vom 0-Zählproblem der n-grams über Embeddings, neuronale Sprachmodelle bis hin zur Selbstaufmerksamkeit reichen.

Mistral’s Codestral Embed: Ein neuer Maßstab für Code-Embeddings
Mistral hat mit Codestral Embed ein neues, spezialisiertes Embedding-Modell für Code vorgestellt, das in den Retrieval-Benchmarks führender Alternativen überlegen ist.

US-China AI Gap: Eine Analyse der Modellleistung, Investitionen und Innovationen bis 2025
Eine Analyse der aktuellen Entwicklungen im US-China KI-Wettlauf, die Herausforderungen, Chancen und die Rolle von Investitionen und Regulierung beleuchtet.
