Artikelbild für den Artikel: Das Bewertungssystem von Character AI für kreatives Schreiben

Das Bewertungssystem von Character AI für kreatives Schreiben

Character AI hat ein neues Framework vorgestellt, das die Bewertung von erzählerischem Geschichtenerzählen durch die Kombination von kreativen Schreibheuristiken mit objektiven Metriken ermöglicht.

Einführung in das Bewertungssystem

Dieser Blogbeitrag markiert den Beginn einer Serie, in der wir untersuchen, wie wir unsere Modelle anhand von Prinzipien des fesselnden Schreibens bewerten. Die Kriterien für ein “gutes” großes Sprachmodell entwickeln sich ständig weiter. Viele Modelle werden anhand grundlegender Metriken wie Perplexität, Flüssigkeit und Kohärenz bewertet, zusammen mit ausgefeilteren Benchmarks für utilitaristische Anwendungsfälle, bei denen Antworten typischerweise objektiv, gut definiert und messbar sind.

Bei Character.AI, wo unsere Mission darin besteht, unsere Nutzer zu befähigen, Geschichten durch interaktive Charaktere zu erstellen und zu erzählen, stellt sich jedoch eine einzigartige Herausforderung: Wie messen wir etwas so Subjektives wie ein “unterhaltsames”, gut strukturiertes und fesselndes Gespräch?

Die Entwicklung des Bewertungssystems

Diese Frage führte uns zur Entwicklung unseres „Compelling Writing Evaluation Framework“, einem dynamischen System, das darauf abzielt, die Qualität von Gesprächen und kreativen Erzählfähigkeiten unseres Modells zu bewerten. Es ist eine Mischung aus kreativen Schreibtechniken und objektiven Dimensionen, die darauf abzielt, wie gut unsere Charaktere fesselnde Gespräche führen.

Hintergrund

Im Gegensatz zu traditionellen Benchmarks wie MMLU oder GSM8K sind die Dimensionen, die uns interessieren – wie Plotstrukturen, Charakterarchetypen und Schreibstil – stark subjektiv. Um diese Dimensionen zu analysieren und zu untersuchen, was Gespräche und Schreiben fesselnd macht, haben wir professionelle Schriftsteller zu Kunst und Wissenschaft des fesselnden Schreibens konsultiert.

Diese Zusammenarbeit konzentrierte sich auf Folgendes:

  • Definition von fesselndem Schreiben: Unser professionelles Schreibteam half uns, die Kernelemente zu identifizieren, die (a) unvergessliche Geschichten, Filme oder Bücher und (b) fesselnde Charaktere ausmachen.
  • Definition der Bewertungsdimensionen: Gemeinsam erkundeten wir verschiedene Plottypen (wie die Reise des Helden), Schreibtechniken (wie “zeigen und erzählen” und Tempo) sowie Charakterarchetypen. Diese Konzepte wurden in objektive und messbare Dimensionen zerlegt.

Methodologie

Die erste Art der Bewertung, die wir durchführen, ist eine Offline-Bewertung mit Daten, die von unserem professionellen Schreibteam erstellt und gekennzeichnet wurden. Dazu nutzen wir einen LLM-Richter und messen jede Dimension des fesselnden Schreibens bei jedem Modellturn. Wenn eine Dimension in der Antwort des Modells vorhanden ist, bewerten wir deren Ausführung. Diese Bewertung hilft uns, ein besseres Verständnis für die Qualität und die Leistung des Modells in Bezug auf diese Dimension zu gewinnen.

Die Offline-Bewertung ist entscheidend, da sie unseren Forschern ermöglicht, schnell zu iterieren, indem sie verschiedene Datenmischungen, Modellarchitekturen und Trainingsregime durchlaufen.

Fazit

Die Bewertung von LLMs hinsichtlich kreativer Schreibqualitäten ist eine fortlaufende Reise. Bei Character AI glauben wir, dass eine Kombination aus professioneller Schreibeinheit und systematischer Bewertung der Schlüssel zu unserer Modellentwicklung ist. Indem wir definieren, was Interaktionen fesselnd macht, diese Qualitäten in messbare Dimensionen zerlegen und unsere Modelle kontinuierlich sowohl offline als auch online bewerten, streben wir danach, die Grenzen dessen, was in KI-gesteuerten Konversationserlebnissen möglich ist, zu erweitern.

Diese Bewertung legt die Grundlage für breitere Anwendungen in den Bereichen Geschichtenerzählen, Weltgestaltung und interaktive Unterhaltung, die neue kreative und erfreuliche Erlebnisse auf unserer Plattform freischalten.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar