Welches Tabellenformat verstehen LLMs am besten? Ergebnisse für 11 Formate
Das Verständnis der Formatempfindlichkeit in großen Sprachmodellen (LLMs) ist entscheidend für die Architektur von Datenpipelines, die Leistungsoptimierung und das Kostenmanagement. Bei der Diskussion über die Zuverlässigkeit von KI-basierten Systemen wird oft eine einfache, aber wichtige Frage vernachlässigt: Welches Format eignet sich am besten, um Tabelleninformationen an ein LLM zu übermitteln? Sollten Sie Markdown-Tabellen, CSV, JSON oder YAML verwenden? Oder funktioniert ein anderes Format besser als diese?
Warum diese Frage wichtig ist
Viele RAG-Pipelines (Retrieval-Augmented Generation) beinhalten das Einlesen von Dokumenten, die Tabelleninformationen enthalten, und das Füttern dieser tabellarischen Informationen an ein LLM. Wenn Sie tabellarische Informationen nicht in einer Weise formatieren, die für das LLM leicht verständlich ist, kann dies die Genauigkeit Ihres gesamten Systems unnötig beeinträchtigen.
Token-Kosten
Einige Formate benötigen mehrere Male mehr Tokens als andere, um dieselben Daten darzustellen. Wenn Sie für die Anzahl der Tokens bezahlen, die Sie verarbeiten, beeinflusst Ihre Wahl des Formats daher die Kosten der LLM-Inferenz.
Unsere Methodologie
Wir haben ein kontrolliertes Experiment entworfen, um zu testen, wie die Formatierung eines Datensatzes die Genauigkeit beeinflusst, mit der ein LLM Fragen zu diesen Daten beantworten kann. Unsere Tests beinhalteten die Übergabe von 1000 Datensätzen an ein LLM und das Stellen einer Frage basierend auf den Daten. Wir haben dann bewertet, ob es in jedem Fall korrekt geantwortet hat. Dieser Prozess wurde für 1000 Fragen wiederholt, wobei wir 11 verschiedene Datenformate verwendeten.
Beispiel Frage-Antwort-Paare
Q. “Wie viele Jahre Erfahrung hat Grace X413? (Geben Sie nur die Zahl zurück, z.B. ’12’.)”
A. “15”
Q. “Was ist Alice W204’s Gehalt? (Geben Sie nur die Zahl zurück, z.B. ‘85200’.)”
A. “131370”
Wie gut hat das LLM jedes Format verstanden?
Format | Genauigkeit | 95% Konfidenzintervall | Tokens |
---|---|---|---|
Markdown-KV | 60.7% | 57.6% – 63.7% | 52,104 |
XML | 56.0% | 52.9% – 59.0% | 76,114 |
INI | 55.7% | 52.6% – 58.8% | 48,100 |
YAML | 54.7% | 51.6% – 57.8% | 55,395 |
HTML | 53.6% | 50.5% – 56.7% | 75,204 |
JSON | 52.3% | 49.2% – 55.4% | 66,396 |
Markdown-Table | 51.9% | 48.8% – 55.0% | 25,140 |
Natürliche Sprache | 49.6% | 46.5% – 52.7% | 43,411 |
JSONL | 45.0% | 41.9% – 48.1% | 54,407 |
CSV | 44.3% | 41.2% – 47.4% | 19,524 |
Pipe-Delimited | 41.1% | 38.1% – 44.2% | 43,098 |
Praktische Hinweise
Basierend auf den Ergebnissen unseres Experiments:
- Wenn Sie stark auf tabellarische Daten angewiesen sind, sollten Sie testen, ob die Umwandlung dieser Daten in ein anderes Format die Genauigkeit verbessert.
- Markdown-KV scheint ein gutes Standardformat zu sein, wenn Genauigkeit von größter Bedeutung ist.
- Markdown-Tabellen sind eine gute Wahl, wenn Sie ein Gleichgewicht zwischen Lesbarkeit und Kosten benötigen.
- Seien Sie vorsichtig, wenn Sie standardmäßig CSV oder JSONL verwenden – diese gängigen Formate könnten die Genauigkeit Ihres Systems beeinträchtigen.
Limitationen und Bereiche für weitere Studien
Wir haben nur OpenAI’s GPT-4.1-nano getestet. Andere Modelle, insbesondere von anderen Anbietern, könnten mit unterschiedlichen Datenformaten besser abschneiden. Außerdem haben wir nur ein Muster von Daten getestet. Die Ergebnisse könnten bei anderen Datenmustern unterschiedlich sein. Es wäre auch interessant, mit verschachtelten Daten wie JSON-Konfigurationen und Tabellen mit zusammengeführten Zellen zu testen.
Schlussfolgerungen
Wir waren überrascht, wie sehr das Eingabedatenformat zu zählen scheint. Unsere Ergebnisse legen nahe, dass einfache Datenumwandlungen in einigen Fällen eine einfache Möglichkeit sein könnten, die Genauigkeit Ihrer LLM-basierten Systeme zu verbessern. Wir sind gespannt, dieses Thema weiter zu untersuchen.
Quellenliste:
- Quelle: WHICH TABLE FORMAT DO LLMS UNDERSTAND BEST? (RESULTS FOR 11 FORMATS)
- Ein weiteres Beispiel für die Formatempfindlichkeit von LLMs
- Studie zur Datenformatierung in KI
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!