BOLT – Wie Mura ein internes LLM-Evaluierungssystem entwickelte
BOLT ist ein Evaluierungssystem, das von Mura entwickelt wurde, um die Effizienz und Genauigkeit ihrer KI-gestützten Lösungen für kommerzielle HVAC-Dienstleister zu verbessern. In diesem Artikel erfahren Sie, wie BOLT entstanden ist, welche Herausforderungen Mura bei der Implementierung hatte und warum Evaluierungssysteme in der KI-Entwicklung von entscheidender Bedeutung sind.
Einführung
Mura ist ein Startup in der Seed-Phase, das kommerziellen HVAC-Anbietern hilft, schneller bezahlt zu werden, ohne zusätzliches Backoffice-Personal einstellen zu müssen. Durch die Umwandlung von unstrukturierten Daten wie E-Mails, PDFs und Arbeitsaufträgen in strukturierte Daten mit Hilfe von KI und Orchestrierung, ermöglicht Mura seinen Nutzern, Vorschläge einfach zu genehmigen. Die Genauigkeit der Vorschläge ist ein kritisches internes Maß, das den ROI für die Kunden maximiert.
Die Notwendigkeit von Evaluierungssystemen
Mit dem rasanten Fortschritt der KI-Technologie ist es für Unternehmen entscheidend, schnell und sicher an der Spitze der Entwicklungen zu bleiben. Evaluierungssysteme wie BOLT ermöglichen es Teams, neue Modelle zu testen, Kundenanpassungen vorzunehmen und Systemarchitekturen zu überarbeiten. BOLT wurde entwickelt, um folgende Ziele zu erreichen:
- Modell-Upgrades: Neue Modelle müssen in einer Vielzahl von Anwendungsfällen getestet werden, um fundierte Migrationsentscheidungen zu treffen.
- Kundenanpassungen: Bei der Einführung neuer Kunden müssen Tests durchgeführt werden, um sicherzustellen, dass die Ausgaben korrekt sind.
- Systemarchitekturen: Die Systeme von Mura sollen sich von „Constrained Agents“ zu „Flexible Agents“ entwickeln, was eine Anpassung der Evaluierungssysteme erfordert.
Die Entwicklung von BOLT
Die Entwicklung von BOLT begann mit der Erkenntnis, dass herkömmliche Evaluierungstools nicht den spezifischen Anforderungen von Mura entsprachen. Daher entschloss sich das Team, ein eigenes System zu entwickeln. BOLT, was für „Benchmarking Outputs for LLM Testing“ steht, ermöglicht es Mura, die Genauigkeit schnell zu messen und Kosten zu sparen.
Die Kernanforderungen von BOLT
Um die oben genannten Ziele zu erreichen, benötigte Mura ein Evaluierungssystem, das über einfache Unit-Tests hinausgeht. Die Kernanforderungen umfassten:
- Automatisches Hinzufügen von Testfällen mit relevanten Metadaten.
- Die Möglichkeit, Tests für verschiedene Entitätstypen auszuführen.
- Eine benutzerfreundliche Analyse der Testergebnisse.
Die Nutzung von Braintrust
Um die Entwicklung von BOLT zu unterstützen, nutzte Mura die Plattform Braintrust. Diese bot eine intuitive Benutzeroberfläche und leistungsstarke Funktionen zur Erstellung und Visualisierung von Testergebnissen. Mura verwendete die Datensatz- und Experimentierfunktionen von Braintrust als Kernbestandteile von BOLT.
Die Auswirkungen von BOLT
Seit der Einführung von BOLT hat Mura signifikante Verbesserungen in der Entwicklungsgeschwindigkeit und den Produktresultaten festgestellt. Beispielsweise konnten Modell-Upgrades effizienter durchgeführt werden, und die Anpassung spezifischer Kundenanfragen wurde erheblich vereinfacht. BOLT hat es Mura ermöglicht, mit mehr Vertrauen Anpassungen vorzunehmen, ohne die Genauigkeit anderer Felder zu gefährden.
Schlussfolgerung
Jedes KI-Unternehmen, das von der Prototypen-Phase in die Produktion übergeht, benötigt robuste Evaluierungssysteme. Es gibt keine universelle Lösung, aber die Prinzipien sind konsistent: Testen auf der richtigen Abstraktionsebene, einfache Analyse der Ergebnisse und Optimierung für Iterationsgeschwindigkeit und Vertrauen sind entscheidend.
Quellenliste:
- Quelle: BOLT – HOW MURA WROTE AN IN-HOUSE LLM EVAL FRAMEWORK
- Mura – Offizielle Webseite
- Braintrust – Offizielle Webseite




Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!