Warum Benchmarking von LLMs entscheidend ist, um Kosten zu sparen

In der heutigen Zeit, in der Unternehmen zunehmend auf Large Language Models (LLMs) setzen, um ihre Geschäftsprozesse zu optimieren, ist es von entscheidender Bedeutung, die Kosten im Auge zu behalten. Viele Nutzer, die für LLM-APIs bezahlen, haben möglicherweise nie alternative Modelle getestet und zahlen dadurch möglicherweise 5-10 Mal mehr als nötig. In diesem Artikel werden wir die Bedeutung des Benchmarkings von LLMs untersuchen und wie es Unternehmen helfen kann, erhebliche Kosten zu sparen.

Einleitung

Letzten Monat half ich einem Freund, seine LLM-API-Rechnung um 80 % zu senken. Er ist ein nicht-technischer Gründer, der ein KI-gestütztes Unternehmen aufbaut. Wie viele andere wählte er GPT-5, weil es die Standardwahl ist: Die API ist bereits verfügbar, sie hat solide Benchmarks und jeder nutzt sie. Doch mit wachsendem Gebrauch stiegen auch die Kosten auf 1.500 Dollar pro Monat nur für API-Aufrufe. Durch das Benchmarking seiner tatsächlichen Eingaben gegen über 100 Modelle stellten wir schnell fest, dass GPT-5 zwar eine solide Wahl ist, aber fast nie die günstigste Option darstellt.

Das Problem: Benchmarks sagen nichts über Ihre spezifischen Aufgaben aus

Bei der Auswahl eines LLM wählen die meisten Menschen einfach ein Modell von ihrem bevorzugten Anbieter. Benchmarks wie Artificial Analysis oder LM Arena können zwar hilfreich sein, sie sind jedoch keine Garantie für die Leistung bei spezifischen Aufgaben. Ein Modell, das in den Benchmarks für logisches Denken hervorragend abschneidet, kann bei der Kostenschätzung oder im Kundenservice versagen. Die einzige Möglichkeit, die tatsächliche Leistung zu beurteilen, besteht darin, die Modelle mit den eigenen Eingaben zu testen und dabei Qualität, Kosten und Latenz zu berücksichtigen.

Wie wir eigene Benchmarks erstellen

Um die besten Modelle zu finden, haben wir eigene Benchmarks erstellt. Hier sind die Schritte, die wir unternommen haben:

Schritt 1: Sammeln realer Beispiele

Wir extrahierten tatsächliche Support-Chats über WHAPI. Jeder Chat lieferte uns die Gesprächshistorie, die letzte Nachricht des Kunden und die Antwort, die mein Freund tatsächlich gesendet hatte. Basierend auf diesen Informationen wählten wir etwa 50 Chats aus, darunter häufig gestellte Fragen und spezielle Fälle.

Schritt 2: Definieren der erwarteten Ausgabe

Für jedes Beispiel verwendeten wir die tatsächliche Antwort meines Freundes als erwartete Ausgabe und definierten Bewertungskriterien. Ein gutes Beispiel könnte sein: „Eine gute Antwort informiert den Kunden, dass das Produkt 5,99 Dollar kostet und bietet an, jetzt eine Bestellung aufzugeben.“

Schritt 3: Erstellen des Benchmark-Datensatzes

Wir hatten nun einen einfachen Datensatz: die Eingabe (Gespräch + Anweisungen) und die erwartete Antwort. Dieses Format kann für alle Anwendungsfälle verwendet werden.

Schritt 4: Ausführen aller Modelle

Wir führten diesen Datensatz über alle LLMs aus, die wir benchmarken wollten. Um die Implementierung zu erleichtern, wählten wir OpenRouter, um eine breite Palette von LLMs über dieselbe API zu nutzen. Dies machte es einfach, alle Modelle mit demselben Code zu benchmarken.

Schritt 5: Bewertung mit LLMs als Richter

Da es nicht möglich war, Hunderte von Antworten manuell zu vergleichen, verwendeten wir ein LLM als Richter. Wir ließen Opus 4.5 bewerten, wie gut die tatsächliche Antwort mit der erwarteten Antwort übereinstimmte. Dies erforderte spezifische Bewertungsanweisungen, um zuverlässige und konsistente Ergebnisse zu erzielen.

Entscheidung für das beste Modell

Nachdem wir die Qualität jedes LLM gemessen hatten, war die nächste Frage, welches Modell wir wählen sollten. In der Praxis ist es wichtig, ein Modell zu wählen, das ein Gleichgewicht zwischen Qualität, Kosten und Latenz bietet. Für unseren Kundenservice war die Latenz entscheidend, während wir für die Kostenschätzung die besten Ergebnisse zu einem angemessenen Preis wollten.

Kosten sparen durch Modellwechsel

Mit diesen Benchmark-Ergebnissen fanden wir Modelle mit vergleichbarer Qualität zu bis zu 10 Mal niedrigeren Kosten. Mein Freund wählte eine konservative Option, die die Kosten um das Fünffache senkte und ihm über 1.000 Dollar pro Monat sparte.

Evalry: Ein Tool zur Automatisierung des Benchmarking-Prozesses

Um den Benchmarking-Prozess zu vereinfachen, entwickelte ich Evalry. Dieses Tool ermöglicht es Nutzern, ihre tatsächlichen Eingaben gegen über 300 Modelle gleichzeitig zu testen. Es vergleicht Qualität, Geschwindigkeit und Kosten nebeneinander, ohne dass Programmierkenntnisse erforderlich sind. Zudem plane ich, eine kontinuierliche Überwachung einzurichten, damit Nutzer benachrichtigt werden, wenn ein besseres Modell verfügbar ist.

Fazit

Wenn Sie für LLM-APIs bezahlen und noch nie Alternativen getestet haben, zahlen Sie wahrscheinlich zu viel. Nutzen Sie Tools wie Evalry, um herauszufinden, ob es ein besseres Modell für Ihren Anwendungsfall gibt.

Quellenliste:

Quelle: WITHOUT BENCHMARKING LLMS, YOU’RE LIKELY OVERPAYING 5-10X
WHAPI
OpenRouter
Evalry
LLM als Richter

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Warum Benchmarking von LLMs entscheidend ist, um Kosten zu sparen

Einleitung

Das Problem: Benchmarks sagen nichts über Ihre spezifischen Aufgaben aus