
WEB BENCH – Eine neue Methode zur Bewertung von KI-Browser-Agenten
/
0 Kommentare
Web Bench ist ein neues Dataset zur Evaluierung von Web-Browsing-Agenten, das aus 5.750 Aufgaben auf 452 verschiedenen Websites besteht.

Google veröffentlicht MedGemma: Neue medizinische KI-Modelle für Entwickler
Google hat MedGemma, ein neues Open-Source-Modell für medizinische KI-Anwendungen, veröffentlicht. Es bietet Entwicklern leistungsstarke Werkzeuge zur Verarbeitung medizinischer Texte und Bilder.

Delaware prüft OpenAIs Umstellung auf ein gewinnorientiertes Modell
Delawares Generalstaatsanwalt bewertet den Umstrukturierungsplan von OpenAI, was den Übergang des Unternehmens zu einem gewinnorientierten Modell kompliziert.

Elon Musk versucht, OpenAIs AI-Deal in den VAE zu blockieren
Elon Musk versucht, OpenAIs Partnerschaft im AI-Campus der VAE zu blockieren, was die Verhandlungen kompliziert.

DeepSeek veröffentlicht kleines Update für das R1-Reasoning-Modell
DeepSeek hat ein aktualisiertes R1-Reasoning-Modell auf Hugging Face veröffentlicht, das als kleines Upgrade beschrieben wird. Die Details sind spärlich, doch die Veröffentlichung könnte für Entwickler von Bedeutung sein.

Mistral’s Codestral Embed: Ein neuer Maßstab für Code-Embeddings
Mistral hat mit Codestral Embed ein neues, spezialisiertes Embedding-Modell für Code vorgestellt, das in den Retrieval-Benchmarks führender Alternativen überlegen ist.

Mark Zuckerberg verkündet: Meta AI hat 1 Milliarde monatlich aktive Nutzer
Meta's künstlicher Intelligenz-Assistent hat nun eine Milliarde monatlich aktive Nutzer. CEO Mark Zuckerberg kündigte dies während der Hauptversammlung an und sprach über zukünftige Monetarisierungsstrategien.

YOU COULD’VE INVENTED TRANSFORMERS
Die grundlegende Architektur von LLMs kann als eine Reihe von einfachen Schritten erklärt werden, die vom 0-Zählproblem der n-grams über Embeddings, neuronale Sprachmodelle bis hin zur Selbstaufmerksamkeit reichen.

STRUCTURED CODEAGENTS FÜR INTELLIGENTERE AUSFÜHRUNGEN
In diesem Artikel wird die innovative Kombination von strukturierter Generierung und codebasierten Aktionen durch Hugging Face vorgestellt, die die Leistung von CodeAgents verbessert.
