Beiträge

Artikelbild für den Artikel: Grok 4: Durchgesickerte Benchmarks zeigen beeindruckende Ergebnisse

Grok 4: Durchgesickerte Benchmarks zeigen beeindruckende Ergebnisse

/
Die durchgesickerten Benchmark-Ergebnisse des Grok 4 Modells von xAI zeigen beeindruckende Leistungen, die das Potenzial haben, die KI-Landschaft zu verändern.
Artikelbild für den Artikel: Scaling Vision Pre-Training auf 4K-Auflösung

Scaling Vision Pre-Training auf 4K-Auflösung

/
Die neueste Entwicklung im Bereich der visuellen KI ist die Möglichkeit, Vision Pre-Training auf bis zu 4K-Auflösung zu skalieren. Dies wird durch das PS3-Modell ermöglicht, das eine effiziente visuelle Vorverarbeitung mit selektiver Kodierung bietet und die Grundlage für das VILA-HD-Modell bildet.
Artikelbild für den Artikel: OPENAI MRCR: Long Context Benchmark für LLMs

OPENAI MRCR: Long Context Benchmark für LLMs

/
Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das die Fähigkeit von LLMs testet, mehrere identische Anfragen in einem komplexen Dialog zu identifizieren und zu verarbeiten.
Artikelbild für den Artikel: ScreenSuite: Die umfassendste Evaluationssuite für GUI-Agenten

ScreenSuite: Die umfassendste Evaluationssuite für GUI-Agenten

/
ScreenSuite ist eine neue Benchmarking-Suite von Hugging Face, die einen standardisierten Rahmen zur Bewertung von Vision-Language-Modellen bei GUI-basierten Agenten bietet.
Artikelbild für den Artikel: WEB BENCH - Eine neue Methode zur Bewertung von KI-Browser-Agenten

WEB BENCH – Eine neue Methode zur Bewertung von KI-Browser-Agenten

/
Web Bench ist ein neues Dataset zur Evaluierung von Web-Browsing-Agenten, das aus 5.750 Aufgaben auf 452 verschiedenen Websites besteht.
Artikelbild für den Artikel: Google Open Sources LMEval für die Bewertung von Modellen über Anbieter hinweg

Google Open Sources LMEval für die Bewertung von Modellen über Anbieter hinweg

/
LMEval ist ein Open-Source-Framework von Google zur effizienten Bewertung von KI-Modellen über verschiedene Anbieter hinweg. Es bietet multimodale Unterstützung und inkrementelle Evaluierung, um die Herausforderungen der schnellen Modellbewertung zu meistern.
Artikelbild für den Artikel: Benchmarking Audio-Visual QA mit Daily-Omni

Benchmarking Audio-Visual QA mit Daily-Omni

/
Daily-Omni ist ein Benchmark und trainingsfreier Agent zur Evaluierung von Modellen, die ein synchronisiertes audio-visuelles Verständnis erfordern. Der Artikel beleuchtet die wichtigsten Aspekte und die Bedeutung von Daily-Omni für die Forschung.
Artikelbild für den Artikel: Benchmarking Spatial Understanding in MLLMs: Einführung von SpatialScore

Benchmarking Spatial Understanding in MLLMs: Einführung von SpatialScore

/
In diesem Artikel werfen wir einen Blick auf SpatialScore, eine neue Benchmark-Suite zur Evaluierung der 3D-Raumwahrnehmung in großen Modellen.
Artikelbild für den Artikel: Die Herausforderung, schematische Bewertungen für LLMs realistisch zu gestalten

Die Herausforderung, schematische Bewertungen für LLMs realistisch zu gestalten

/
In der Welt der künstlichen Intelligenz ist es eine ständige Herausforderung, wie man große Sprachmodelle (LLMs) dazu bringt, in schematischen Bewertungen realistisch zu agieren. Ein kürzlich veröffentlichter Artikel beleuchtet diese Problematik und zeigt auf, dass es äußerst schwierig ist, LLMs davon zu überzeugen, dass sie sich in einer realen Situation und nicht in einer Bewertung befinden.