Artikelbild für den Artikel: Warum KI-Modelle so viele Em-Dashes verwenden

Warum KI-Modelle so viele Em-Dashes verwenden

In der Welt der KI-generierten Texte ist die Verwendung von Em-Dashes zu einem markanten Merkmal geworden. Viele Menschen, die diese Satzzeichen lieben, haben sich sogar davon abgewandt, aus Angst, mit KI verwechselt zu werden. In diesem Artikel untersuchen wir die möglichen Erklärungen für diese auffällige Vorliebe der Sprachmodelle.

Einführung in das Phänomen der Em-Dashes

Wenn man die meisten Menschen fragt, welches Merkmal KI-generierter Texte sie am meisten auffällt, würden viele wahrscheinlich die Em-Dash nennen — wie diese hier. Sprachmodelle verwenden Em-Dashes so häufig, dass es den Anschein hat, als ob sie ein unverzichtbarer Bestandteil ihrer Schreibweise sind. Doch warum ist das so?

Erklärungen, die ich nicht für überzeugend halte

Eine gängige Erklärung ist, dass Em-Dashes in normalem Englisch häufig vorkommen, sodass die Modelle sie einfach aus den Trainingsdaten übernommen haben. Diese Erklärung halte ich jedoch für wenig überzeugend, denn wenn Em-Dashes in KI-Texten so häufig wären wie in menschlichen Texten, würden sie nicht als so auffällig wahrgenommen werden.

Eine weitere Erklärung besagt, dass KI-Modelle Em-Dashes aufgrund ihrer Vielseitigkeit bevorzugen. Sie könnten es als eine Möglichkeit sehen, ihre Optionen offen zu halten, wenn sie das nächste Token vorhersagen. Doch auch hier bin ich skeptisch. Viele andere Satzzeichen sind ebenfalls flexibel, und die Vorstellung, dass Modelle „auf Nummer sicher gehen“, indem sie Em-Dashes verwenden, erscheint mir nicht schlüssig.

Die Rolle der Daten und der menschlichen Rückmeldungen

Einige Forscher argumentieren, dass KI-Modelle Em-Dashes verwenden, weil das Training explizit auf Kürze ausgerichtet ist und Em-Dashes sehr token-effizient sind. Bei meinen Experimenten mit dem OpenAI-Tokenizer habe ich jedoch festgestellt, dass Em-Dashes nicht unbedingt effizienter sind. Oft könnten sie durch Kommas ersetzt werden, die ebenso kurz sind.

Eine interessante Theorie besagt, dass die Verwendung von Em-Dashes möglicherweise die lokale englische Dialektform der menschlichen Tester widerspiegelt, die an der letzten Trainingsphase beteiligt sind. Diese Tester, die in Ländern mit niedrigen Lebenshaltungskosten leben, könnten dazu neigen, Em-Dashes in ihren Bewertungen höher zu bewerten. Doch auch hier gibt es keine schlüssigen Beweise.

Digitale Transformation von Printmedien

Ein bemerkenswerter Punkt ist, dass GPT-3.5 Em-Dashes nicht verwendete, während GPT-4o sie etwa zehnmal häufiger einsetzte. Was hat sich zwischen diesen beiden Versionen geändert? Ein möglicher Faktor könnte die Art der Trainingsdaten sein. In den letzten Jahren haben KI-Labore erkannt, dass sie qualitativ hochwertige Trainingsdaten benötigen, was zu einer Digitalisierung vieler Printbücher führte.

Es ist plausibel, dass die Bücher, die digitalisiert wurden, näher an den Schreibstilen des 19. Jahrhunderts liegen, die bekanntermaßen eine höhere Dichte an Em-Dashes aufweisen. Diese Bücher könnten die Sprache der Modelle stark beeinflusst haben, was zu einer Überrepräsentation von Em-Dashes in den generierten Texten führt.

Zusammenfassung der Erklärungen

Zusammenfassend lassen sich die möglichen Erklärungen für die häufige Verwendung von Em-Dashes in KI-generierten Texten in drei Kategorien einteilen:

  • Strukturelle Erklärungen: Diese Argumente behaupten, dass Em-Dashes von autoregressiven Modellen bevorzugt werden, weil sie Token sparen oder Optionen offenhalten. Diese Sichtweise erscheint mir jedoch nicht überzeugend.
  • RLHF-Erklärungen: Diese Erklärungen argumentieren, dass menschliche Bewerter Em-Dashes bevorzugen, weil sie konversationeller wirken. Hier könnte ein gewisses Maß an Wahrheit liegen, aber es ist schwer zu beweisen.
  • Erklärungen zu den Trainingsdaten: Diese Argumente besagen, dass Em-Dashes einfach in den Trainingsdaten enthalten sind. Diese Erklärung könnte am stärksten sein, insbesondere wenn man bedenkt, dass sie in älteren Printbüchern überrepräsentiert sind.

Abschließende Gedanken

Es bleibt festzuhalten, dass die Gründe für die häufige Verwendung von Em-Dashes in KI-generierten Texten noch weitgehend spekulativ sind. Vielleicht liegt es an der Digitalisierung älterer Texte, oder vielleicht sind Em-Dashes einfach ein Merkmal, das von menschlichen Bewertern bevorzugt wird. Die Diskussion darüber, warum KI-Modelle so viele Em-Dashes verwenden, ist noch lange nicht abgeschlossen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar