Beiträge

LM Arena sichert sich 100 Millionen Dollar bei einer Bewertung von 600 Millionen Dollar
/
0 Kommentare
LM Arena, eine crowdsourced AI-Benchmarking-Plattform, hat 100 Millionen Dollar in Seed-Finanzierung gesichert, was die Organisation mit 600 Millionen Dollar bewertet.

ARC-AGI-2: Die nächste Generation des KI-Reasoning Benchmarks
François Chollet und das ARC Prize-Team haben ARC-AGI-2 veröffentlicht, eine herausforderndere Version ihres Benchmarks für abstraktes Denken.

AI2s neues kleines KI-Modell übertrifft vergleichbare Modelle von Google und Meta
AI2 hat mit Olmo 2 1B ein neues KI-Modell vorgestellt, das in wichtigen Benchmarks besser abschneidet als vergleichbare Modelle von Google, Meta und Alibaba. Das Modell ist unter einer permissiven Lizenz verfügbar und kann auf weniger leistungsfähiger Hardware betrieben werden.

OpenAI’s HealthBench: Ein neuer Maßstab für KI-Modelle im Gesundheitswesen
OpenAI's HealthBench ist ein neu entwickelter Benchmark zur Bewertung von KI-Modellen in realistischen medizinischen Gesprächen, der in Zusammenarbeit mit 262 Ärzten erstellt wurde.

Die Illusion der Bestenliste: Verzerrungen im Benchmarking von Chatbots
Die Bewertung des Fortschritts in der KI-Entwicklung ist entscheidend, doch die Chatbot Arena zeigt systematische Verzerrungen durch ungleiche Datenzugänge und selektive Offenlegung. Dieser Artikel beleuchtet die Probleme und bietet Reformvorschläge für eine gerechtere Bewertungslandschaft.
