Das AI Eval Flywheel: Scorers, Datasets, Produktionsnutzung & schnelle Iteration
Auf der 2025 AI Engineer World’s Fair in San Francisco gab es eine überraschende Konsistenz in den allgemeinen Evaluierungsrahmen, die sich auf die Evolution von Eingaben und Ausgaben basierend auf der realen Produktionsnutzung konzentrierten. In diesem Artikel werden wir die Konzepte und Praktiken rund um das AI Eval Flywheel näher betrachten.
Einführung in das AI Eval Flywheel
Letzte Woche hatte ich die Gelegenheit, an der 2025 AI Engineer World’s Fair teilzunehmen, zusammen mit vielen anderen Gründern von Seattle Foundations. Es gab über 20 Tracks zu spezifischen Themen, und ich habe mich besonders intensiv mit Evaluierungen (Evals) beschäftigt. Dabei habe ich aus erster Hand erfahren, wie Unternehmen wie Google, Notion, Zapier und Vercel Evals für ihre KI-Funktionen entwickeln und implementieren.
Die Bedeutung von Evals
Was passiert, wenn man KI-Funktionen ohne Evals entwickelt? Es basiert im Wesentlichen auf einem Gefühl. Man arbeitet ad-hoc mit den Eingaben, die man verwendet, und beurteilt die Ausgaben nach dem, was einem in den Sinn kommt. Wenn man beispielsweise einen Chatbot entwickelt, könnte man ein paar Nachrichten ausprobieren und die Antworten des Bots bewerten. Doch was geschieht, wenn ein neues Modell herauskommt oder man einen Randfall entdeckt, bei dem man seine Eingaben anpassen möchte? Man wird feststellen, dass es zu viele Variationen gibt, um sie im Kopf zu behalten, und man möchte systematischer vorgehen, um die Funktion zu verbessern und weiterzuentwickeln.
Kleine und große Evals
Hier kommen die Evals ins Spiel. Der Begriff „Evals“ wird in zwei unterschiedlichen Kontexten verwendet. Es gibt den breiteren Prozess der Evals (großes E) und einen spezifischen Schritt innerhalb dieses Prozesses (kleines e). Der spezifische Schritt bezieht sich auf die systematische Bewertung der Ausgaben einer Funktion. Man könnte beispielsweise eine Ausgabe mit 73 von 100 Punkten bewerten, basierend auf einer gewichteten Summe spezifischer Ausgabeneigenschaften.
Scoring und Signale
Eine der interessantesten Präsentationen kam von Pi Labs, gegründet von ehemaligen Google-Mitarbeitern, die über den Prozess von Google zur Bewertung der Qualität von Suchergebnissen sprachen. Google zerlegt, was ein gutes Suchergebnis ausmacht, in 300 verschiedene Signale. Diese Signale können beispielsweise die Ladegeschwindigkeit der Seite, die Anzahl und Qualität der Backlinks, die Qualität des Textes und das Design der Seite umfassen. Jedes dieser Signale kann automatisch bewertet werden, entweder durch Code oder neuerdings durch LLMs.
Wie man Evals aufbaut
Es gibt zwei Ansätze, um Evals zu erstellen: man kann sie individuell entwickeln oder eine Plattform nutzen, die sich auf diesen Prozess spezialisiert hat. Braintrust scheint hier führend zu sein, da Notion, Zapier und Vercel alle auf diese Lösung zurückgreifen. Hier ist ein Beispiel für das „Create scorer“-Formular von Braintrust, um einen LLM-als-Richter oder eine codebasierte Eval zu erstellen.
Datenbanken: Strukturierung der Eingaben
Es ist auch wichtig, systematischer mit den Eingaben umzugehen, die man verwendet, um die KI-Funktion zu testen. Hier kommen Datensätze ins Spiel. Datensätze sind Sammlungen von Eingaben, die man für eine schnelle Wiederverwendung gespeichert hat. Man kann entweder kuratierte Datensätze erstellen, die gute Eingaben repräsentieren, oder synthetische Datensätze, die mit Hilfe von LLMs generiert werden.
Online vs. Offline Evals
Ein wichtiger Unterschied, der in den Präsentationen häufig erwähnt wurde, ist der zwischen Offline- und Online-Evals. Offline-Evals sind Teil des Entwicklungsprozesses und verwenden Datensätze, die vom Team erstellt wurden. Online-Evals hingegen beziehen sich auf die direkte Bewertung der Produktionsnutzung einer KI-Funktion, wobei die Nutzer die Eingaben liefern. Online-Evals sind besonders wertvoll, da sie einen Einblick in die tatsächliche Leistung der Funktion geben und helfen, Regressionen zu erkennen.
Frictionless Experimentation
Um das Flywheel effektiv zu nutzen, ist es entscheidend, den Prozess so schnell und reibungslos wie möglich zu gestalten. Je mehr Iterationen man durchführen kann, desto besser kann man die Nutzererfahrung verbessern. Ein Schlüsselkonzept ist die Schaffung von „Playgrounds“, in denen man die Funktion schnell anpassen und gegen die Datensätze und Evals testen kann.
Weitere Ressourcen zu Evals
Eine wertvolle Ressource ist der Kurs von Hamel Husain und Shreya Shankar über „AI Evals for Engineers & PMs“. Auch Eugene Yan hat zahlreiche großartige Beiträge zu Evals veröffentlicht und ist eine gute Quelle für weitere Informationen.
Quellenliste:
- Quelle: THE AI EVAL FLYWHEEL: SCORERS, DATASETS, PRODUCTION USAGE, & RAPID ITERATION
- Seattle Foundations
- Pi Labs
- Braintrust
- Hamel Husain’s Blog
- Eugene Yan’s Blog
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!