Artikelbild für den Artikel: Token-Oriented Object Notation (TOON) – Effiziente Datenrepräsentation für LLMs

Token-Oriented Object Notation (TOON) – Effiziente Datenrepräsentation für LLMs

TOON ist ein kompaktes, menschenlesbares Format, das für die Übertragung strukturierter Daten an Large Language Models (LLMs) mit signifikant reduziertem Tokenverbrauch entwickelt wurde. Es ist optimiert für die Eingabe in LLMs und nicht für die Ausgabe. TOON zeigt seine Stärken besonders bei einheitlichen komplexen Objekten.

Einführung in TOON

Die Token-Oriented Object Notation (TOON) kombiniert Elemente von YAML und CSV, um die Lesbarkeit und Effizienz zu erhöhen. Die Hauptmerkmale von TOON umfassen:

  • Token-Effizienz: TOON benötigt typischerweise 30-60% weniger Tokens als JSON.
  • LLM-freundliche Schutzvorrichtungen: Durch explizite Längen- und Feldlisten können Modelle die Ausgabe validieren.
  • Minimale Syntax: Redundante Satzzeichen (wie Klammern und die meisten Anführungszeichen) wurden entfernt.
  • Einrückungsbasierte Struktur: TOON verwendet Whitespace anstelle von Klammern für eine bessere Lesbarkeit.
  • Tabellarische Arrays: Schlüssel werden einmal deklariert, dann werden Zeilen ohne Wiederholung gestreamt.

Warum TOON?

Mit der zunehmenden Verfügbarkeit von KI-Technologien wird auch der Zugang zu größeren Kontextfenstern für LLMs einfacher. Dies ermöglicht die Eingabe größerer Datenmengen, wobei die Kosten für Tokens jedoch weiterhin eine Rolle spielen. Standard-JSON ist oft zu umfangreich und teuer in der Token-Nutzung. TOON bietet eine Lösung, indem es dieselben Informationen mit weniger Tokens überträgt.

Benchmarking und Effizienz

Die Effizienz von TOON wurde in mehreren Benchmarks getestet. Hier sind einige Ergebnisse:

  • GitHub-Repositories: TOON benötigt 8,745 Tokens im Vergleich zu 15,145 Tokens für JSON, was 42,3% Einsparungen bedeutet.
  • Tägliche Analytik: TOON benötigt 4,507 Tokens im Vergleich zu 10,977 Tokens für JSON, was 58,9% Einsparungen bedeutet.
  • E-Commerce-Bestellungen: TOON benötigt 166 Tokens im Vergleich zu 257 Tokens für JSON, was 35,4% Einsparungen bedeutet.

Beispiele für TOON

Hier sind einige Beispiele, wie TOON strukturiert ist:

users[2]{id,name,role}: 1,Alice,admin 2,Bob,user

Im Vergleich dazu würde dasselbe in JSON so aussehen:

{ "users": [ { "id": 1, "name": "Alice", "role": "admin" }, { "id": 2, "name": "Bob", "role": "user" } ] }

Fazit

TOON stellt eine vielversprechende Alternative zu traditionellen Datenformaten wie JSON und XML dar, insbesondere wenn es um die Effizienz der Token-Nutzung in LLMs geht. Es ist besonders vorteilhaft für einheitliche komplexe Objekte und bietet eine benutzerfreundliche Syntax, die die Lesbarkeit verbessert.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar