Artikelbild für den Artikel: Google Open Sources LMEval für die Bewertung von Modellen über Anbieter hinweg

Google Open Sources LMEval für die Bewertung von Modellen über Anbieter hinweg

LMEval ist ein Framework zur Benchmarking von KI-Modellen verschiedener Anbieter mit multimodalem Support und inkrementeller Bewertung.

Einführung in LMEval

Im April auf dem InCyber Forum Europe haben wir LMEval, ein umfassendes Modellbewertungs-Framework, als Open Source veröffentlicht. Dieses Framework soll anderen helfen, die Leistung von Modellen verschiedener Anbieter genau und effizient zu vergleichen. Diese Ankündigung fiel zusammen mit einem gemeinsamen Vortrag mit Giskard über unsere Zusammenarbeit zur Erhöhung des Vertrauens in die Sicherheit und Zuverlässigkeit von Modellen.

Die Herausforderungen der schnellen Modellbewertung

Die Landschaft der großen Sprachmodelle (LLMs) verändert sich rasant. Neue Modelle werden ständig veröffentlicht, oft mit Verbesserungen und neuen Funktionen. Um in diesem schnelllebigen Umfeld mithalten zu können, müssen Entwickler, Forscher und Organisationen schnell und zuverlässig bewerten, ob diese neueren Modelle besser für ihre spezifischen Anwendungen geeignet sind. Bisher hat sich die schnelle Modellbewertung als schwierig erwiesen, da sie Werkzeuge erfordert, die skalierbare, genaue und benutzerfreundliche Benchmarking-Methoden über verschiedene Anbieter hinweg ermöglichen.

Einführung von LMEval

Um diese Herausforderung zu bewältigen, freuen wir uns, LMEval (Large Model Evaluator) vorzustellen, ein Open-Source-Framework, das von Google entwickelt wurde, um die Bewertung von LLMs über verschiedene Benchmark-Datensätze und Modellanbieter hinweg zu optimieren. LMEval wurde von Grund auf so konzipiert, dass es genau, multimodal und benutzerfreundlich ist. Zu den wichtigsten Funktionen gehören:

  • Kompatibilität mit mehreren Anbietern: Die Bewertung von Modellen sollte nicht erfordern, dass man sich mit verschiedenen APIs für jeden Anbieter herumschlägt. LMEval nutzt das LiteLLM-Framework, um sofortige Kompatibilität mit großen Modellanbietern wie Google, OpenAI, Anthropic, Ollama und Hugging Face zu bieten. Sie können Ihr Benchmark einmal definieren und es konsistent über verschiedene Modelle mit minimalen Codeänderungen ausführen.
  • Inkrementelle und effiziente Bewertung: Das erneute Ausführen einer gesamten Benchmark-Suite jedes Mal, wenn ein neues Modell oder eine neue Version veröffentlicht wird, ist langsam, ineffizient und kostspielig. Die intelligente Bewertungsengine von LMEval plant und führt Bewertungen inkrementell durch. Sie führt nur die notwendigen Bewertungen für neue Modelle, Aufforderungen oder Fragen aus, was erhebliche Zeit und Rechenressourcen spart. Ihre multithreaded Engine beschleunigt diesen Prozess weiter.
  • Multimodale und Multi-Metrik-Unterstützung: Moderne Fundamentmodelle gehen über Text hinaus. LMEval ist für multimodale Bewertungen konzipiert und unterstützt Benchmarks, die Text, Bilder und Code umfassen. Das Hinzufügen neuer Modalitäten ist unkompliziert. Darüber hinaus unterstützt es verschiedene Bewertungsmetriken, um eine breite Palette von Benchmark-Formaten zu unterstützen, von booleschen Fragen über Multiple-Choice-Fragen bis hin zu freier Formulierung. Zusätzlich bietet LMEval Unterstützung für Sicherheits- und Punting-Erkennung.
  • Skalierbare und sichere Speicherung: Um Benchmark-Ergebnisse sicher und effizient zu speichern, nutzt LMEval eine selbstverschlüsselnde SQLite-Datenbank. Dieser Ansatz schützt Benchmark-Daten und Ergebnisse vor unbeabsichtigtem Crawlen/Indexieren, während sie über LMEval leicht zugänglich bleiben.

Erste Schritte mit LMEval

Die Erstellung und Ausführung von Bewertungen mit LMEval ist intuitiv gestaltet. Hier ist ein vereinfachtes Beispiel, das zeigt, wie man zwei Versionen des Gemini-Modells auf einem Benchmark bewertet. Das LMEval GitHub-Repository enthält Beispielnotebooks, die Ihnen den Einstieg erleichtern.

Visualisierung der Ergebnisse mit LMEvalboard

Das Verständnis von Benchmark-Ergebnissen erfordert mehr als nur Zusammenfassungsstatistiken. Um dabei zu helfen, enthält LMEval LMEvalboard, ein Begleit-Dashboard-Tool, das eine interaktive Visualisierung bietet, wie Modelle im Vergleich zueinander abschneiden. LMEvalboard bietet wertvolle Einblicke in die Stärken und Schwächen von Modellen und ergänzt traditionelle Rohdaten der Bewertung.

  • Gesamtleistung anzeigen: Vergleichen Sie schnell die Genauigkeit aller Modelle über das gesamte Benchmark hinweg.
  • Einzelnes Modell analysieren: Tauchen Sie tief in die Leistungsmerkmale eines bestimmten Modells in verschiedenen Kategorien ein, indem Sie Radardiagramme verwenden und spezifische Beispiele für Fehler untersuchen.
  • Direkte Vergleiche durchführen: Vergleichen Sie zwei Modelle direkt und visualisieren Sie ihre Leistungsunterschiede in verschiedenen Kategorien und untersuchen Sie spezifische Fragen, bei denen sie nicht übereinstimmen.

Probieren Sie LMEval noch heute aus!

Wir laden Sie ein, LMEval zu erkunden, es für Ihre eigenen Bewertungen zu verwenden und zu seiner Entwicklung beizutragen, indem Sie zum LMEval GitHub-Repository gehen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar