
Large Language Models wissen oft, wann sie evaluiert werden
/
0 Kommentare
Eine aktuelle Studie zeigt, dass Frontier-Modelle mit einer Genauigkeit von 83 % zwischen Evaluationsszenarien und realen Interaktionen unterscheiden können. Dies wirft Fragen zur Zuverlässigkeit von Tests und Benchmarks auf.

CURSOR veröffentlicht Version 1.0
Die neueste Version von CURSOR, dem AI-Code-Editor, bietet zahlreiche neue Funktionen, darunter den BugBot für automatische PR-Überprüfungen und Unterstützung für Jupyter Notebooks.

CODEX, JULES, UND DIE ZUKUNFT DER ASYNCHRONEN KI-AGENTEN
Codex und Jules zeigen, wie asynchrone KI-Agenten Aufgaben unabhängig ausführen können und welche Funktionen in der Zukunft erwartet werden.

Cloud Run GPUs: Jetzt allgemein verfügbar und erleichtern das Ausführen von KI-Workloads für alle
NVIDIA GPU-Support für Cloud Run ist jetzt allgemein verfügbar und erleichtert Entwicklern das Ausführen von KI-Workloads. Erfahren Sie mehr über die Vorteile und neuen Anwendungsfälle.

AMAZON’S R&D LAB FORMS NEW AGENTIC AI GROUP
Amazon hat eine neue Gruppe innerhalb seiner Forschungs- und Entwicklungsabteilung Lab126 gegründet, die sich auf agentische künstliche Intelligenz konzentriert, um ein Framework für robotische Operationen zu entwickeln.

Yoshua Bengios AI Safety Lab: LawZero
Yoshua Bengio hat ein gemeinnütziges AI-Sicherheitslabor namens LawZero gegründet, das mit 30 Millionen US-Dollar finanziert wird, um sicherere KI-Systeme zu entwickeln.

Warum ich etwas längere Zeitrahmen als einige meiner Gäste habe
In diesem Artikel diskutiert Dwarkesh Patel die Herausforderungen und Zeitrahmen für die Entwicklung von AGI und die Bedeutung des kontinuierlichen Lernens in der KI.

Wann werden wir einen Aufpreis für KI-Arbeit zahlen?
Der Artikel untersucht, warum KI-Agenten derzeit günstiger sind als menschliche Arbeitskräfte und ob sie jemals einen Aufpreis verlangen werden.

Vorhersage und Erklärung der Leistung von KI-Modellen: Ein neuer Ansatz zur Bewertung
Microsoft-Forscher haben ADeLe entwickelt, ein Framework zur Vorhersage und Erklärung der Leistung von KI-Modellen bei neuen Aufgaben, das auf 18 kognitiven und wissensbasierten Skalen basiert.