Beiträge

Artikelbild für den Artikel: OpenAI's HealthBench: Ein neuer Maßstab für KI-Modelle im Gesundheitswesen

OpenAI’s HealthBench: Ein neuer Maßstab für KI-Modelle im Gesundheitswesen

/
OpenAI's HealthBench ist ein neu entwickelter Benchmark zur Bewertung von KI-Modellen in realistischen medizinischen Gesprächen, der in Zusammenarbeit mit 262 Ärzten erstellt wurde.
Artikelbild für den Artikel: ie llusion der estenliste erzerrungen im enchmarking von hatbots

Die Illusion der Bestenliste: Verzerrungen im Benchmarking von Chatbots

/
Die Bewertung des Fortschritts in der KI-Entwicklung ist entscheidend, doch die Chatbot Arena zeigt systematische Verzerrungen durch ungleiche Datenzugänge und selektive Offenlegung. Dieser Artikel beleuchtet die Probleme und bietet Reformvorschläge für eine gerechtere Bewertungslandschaft.