Token-Oriented Object Notation (TOON) – Effiziente Datenrepräsentation für LLMs
TOON ist ein kompaktes, menschenlesbares Format, das für die Übertragung strukturierter Daten an Large Language Models (LLMs) mit signifikant reduziertem Tokenverbrauch entwickelt wurde. Es ist optimiert für die Eingabe in LLMs und nicht für die Ausgabe. TOON zeigt seine Stärken besonders bei einheitlichen komplexen Objekten.
Einführung in TOON
Die Token-Oriented Object Notation (TOON) kombiniert Elemente von YAML und CSV, um die Lesbarkeit und Effizienz zu erhöhen. Die Hauptmerkmale von TOON umfassen:
- Token-Effizienz: TOON benötigt typischerweise 30-60% weniger Tokens als JSON.
- LLM-freundliche Schutzvorrichtungen: Durch explizite Längen- und Feldlisten können Modelle die Ausgabe validieren.
- Minimale Syntax: Redundante Satzzeichen (wie Klammern und die meisten Anführungszeichen) wurden entfernt.
- Einrückungsbasierte Struktur: TOON verwendet Whitespace anstelle von Klammern für eine bessere Lesbarkeit.
- Tabellarische Arrays: Schlüssel werden einmal deklariert, dann werden Zeilen ohne Wiederholung gestreamt.
Warum TOON?
Mit der zunehmenden Verfügbarkeit von KI-Technologien wird auch der Zugang zu größeren Kontextfenstern für LLMs einfacher. Dies ermöglicht die Eingabe größerer Datenmengen, wobei die Kosten für Tokens jedoch weiterhin eine Rolle spielen. Standard-JSON ist oft zu umfangreich und teuer in der Token-Nutzung. TOON bietet eine Lösung, indem es dieselben Informationen mit weniger Tokens überträgt.
Benchmarking und Effizienz
Die Effizienz von TOON wurde in mehreren Benchmarks getestet. Hier sind einige Ergebnisse:
- GitHub-Repositories: TOON benötigt 8,745 Tokens im Vergleich zu 15,145 Tokens für JSON, was 42,3% Einsparungen bedeutet.
- Tägliche Analytik: TOON benötigt 4,507 Tokens im Vergleich zu 10,977 Tokens für JSON, was 58,9% Einsparungen bedeutet.
- E-Commerce-Bestellungen: TOON benötigt 166 Tokens im Vergleich zu 257 Tokens für JSON, was 35,4% Einsparungen bedeutet.
Beispiele für TOON
Hier sind einige Beispiele, wie TOON strukturiert ist:
users[2]{id,name,role}: 1,Alice,admin 2,Bob,userIm Vergleich dazu würde dasselbe in JSON so aussehen:
{ "users": [ { "id": 1, "name": "Alice", "role": "admin" }, { "id": 2, "name": "Bob", "role": "user" } ] }Fazit
TOON stellt eine vielversprechende Alternative zu traditionellen Datenformaten wie JSON und XML dar, insbesondere wenn es um die Effizienz der Token-Nutzung in LLMs geht. Es ist besonders vorteilhaft für einheitliche komplexe Objekte und bietet eine benutzerfreundliche Syntax, die die Lesbarkeit verbessert.
Quellenliste:
- Quelle: Token-Oriented Object Notation (TOON)
- XKCD Comic über JSON
- JSON – The JavaScript Object Notation










Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!