Artikelbild für den Artikel: Vorhersage und Erklärung der Leistung von KI-Modellen: Ein neuer Ansatz zur Bewertung

Vorhersage und Erklärung der Leistung von KI-Modellen: Ein neuer Ansatz zur Bewertung

Die Forscher von Microsoft haben ADeLe entwickelt, ein Framework, das die Leistung von KI-Modellen bei neuen Aufgaben vorhersagt und erklärt, indem es diese anhand von 18 kognitiven und wissensbasierten Skalen bewertet.

Einführung

Mit Unterstützung des Accelerating Foundation Models Research (AFMR) Grant-Programms hat ein Team von Forschern von Microsoft und kooperierenden Institutionen einen neuen Ansatz zur Bewertung von KI-Modellen entwickelt. Dieser Ansatz prognostiziert, wie gut die Modelle bei unbekannten Aufgaben abschneiden werden, und erklärt, warum dies der Fall ist – etwas, das aktuelle Benchmarks nur unzureichend leisten können.

ADeLe: Ein fähigkeitsbasierter Ansatz zur Aufgabenbewertung

Das Framework nutzt ADeLe (annotated-demand-levels), eine Technik, die bewertet, wie anspruchsvoll eine Aufgabe für ein KI-Modell ist, indem es Messskalen für 18 Arten von kognitiven und wissensbasierten Fähigkeiten anwendet. Diese Schwierigkeitsbewertung basiert auf einem detaillierten Bewertungsraster, das ursprünglich für menschliche Aufgaben entwickelt wurde und sich als zuverlässig erwiesen hat, wenn es auf KI-Modelle angewendet wird.

Die Methodik

Durch den Vergleich der Anforderungen einer Aufgabe mit den Fähigkeiten eines Modells erstellt ADeLe ein Fähigkeitsprofil, das nicht nur die Leistung vorhersagt, sondern auch erklärt, warum ein Modell wahrscheinlich erfolgreich oder gescheitert ist. Die 18 Skalen spiegeln grundlegende kognitive Fähigkeiten (z.B. Aufmerksamkeit, Schlussfolgerungen), Wissensgebiete (z.B. Natur- oder Sozialwissenschaften) und andere aufgabenbezogene Faktoren wider. Jede Aufgabe wird von 0 bis 5 bewertet, je nachdem, wie stark sie auf einer bestimmten Fähigkeit basiert.

Entwicklung des Systems

Um dieses System zu entwickeln, analysierte das Team 16.000 Beispiele aus 63 Aufgaben, die aus 20 KI-Benchmarks stammen. Die Ergebnisse zeigen, wie Bewertungen über 18 allgemeine Skalen den Erfolg oder Misserfolg eines Modells erklären und die Leistung bei neuen Aufgaben in sowohl vertrauten als auch unbekannten Umgebungen vorhersagen.

Bewertungsergebnisse

Mit ADeLe bewertete das Team 20 gängige KI-Benchmarks und entdeckte drei wichtige Erkenntnisse:

  1. Aktuelle KI-Benchmarks haben Messbeschränkungen: Viele beliebte KI-Tests messen entweder nicht, was sie behaupten, oder decken nur einen begrenzten Schwierigkeitsgrad ab.
  2. Erstellung detaillierter KI-Fähigkeitsprofile: Durch die 0–5-Bewertung für jede Fähigkeit erstellte das Team umfassende Fähigkeitsprofile von 15 LLMs (Large Language Models).
  3. Vorhersage von KI-Erfolg und -Misserfolg: Das Team entwickelte ein praktisches Vorhersagesystem, das auf den Messungen der Anforderungen basiert und vorhersagt, ob ein Modell bei bestimmten Aufgaben erfolgreich sein wird.

Ausblick

ADeLe kann auf multimodale und verkörperte KI-Systeme ausgeweitet werden und hat das Potenzial, als standardisiertes Framework für KI-Forschung, Politikgestaltung und Sicherheitsprüfungen zu dienen. Diese Technologie stellt einen bedeutenden Schritt in Richtung einer Wissenschaft der KI-Bewertung dar, die sowohl klare Erklärungen für das Verhalten von Systemen als auch zuverlässige Vorhersagen über deren Leistung bietet.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar