Welches Tabellenformat verstehen LLMs am besten? Ergebnisse für 11 Formate

Das Verständnis der Formatempfindlichkeit in großen Sprachmodellen (LLMs) ist entscheidend für die Architektur von Datenpipelines, die Leistungsoptimierung und das Kostenmanagement. Bei der Diskussion über die Zuverlässigkeit von KI-basierten Systemen wird oft eine einfache, aber wichtige Frage vernachlässigt: Welches Format eignet sich am besten, um Tabelleninformationen an ein LLM zu übermitteln? Sollten Sie Markdown-Tabellen, CSV, JSON oder YAML verwenden? Oder funktioniert ein anderes Format besser als diese?

Warum diese Frage wichtig ist

Viele RAG-Pipelines (Retrieval-Augmented Generation) beinhalten das Einlesen von Dokumenten, die Tabelleninformationen enthalten, und das Füttern dieser tabellarischen Informationen an ein LLM. Wenn Sie tabellarische Informationen nicht in einer Weise formatieren, die für das LLM leicht verständlich ist, kann dies die Genauigkeit Ihres gesamten Systems unnötig beeinträchtigen.

Token-Kosten

Einige Formate benötigen mehrere Male mehr Tokens als andere, um dieselben Daten darzustellen. Wenn Sie für die Anzahl der Tokens bezahlen, die Sie verarbeiten, beeinflusst Ihre Wahl des Formats daher die Kosten der LLM-Inferenz.

Unsere Methodologie

Wir haben ein kontrolliertes Experiment entworfen, um zu testen, wie die Formatierung eines Datensatzes die Genauigkeit beeinflusst, mit der ein LLM Fragen zu diesen Daten beantworten kann. Unsere Tests beinhalteten die Übergabe von 1000 Datensätzen an ein LLM und das Stellen einer Frage basierend auf den Daten. Wir haben dann bewertet, ob es in jedem Fall korrekt geantwortet hat. Dieser Prozess wurde für 1000 Fragen wiederholt, wobei wir 11 verschiedene Datenformate verwendeten.

Beispiel Frage-Antwort-Paare

Q. “Wie viele Jahre Erfahrung hat Grace X413? (Geben Sie nur die Zahl zurück, z.B. ’12’.)”
A. “15”
Q. “Was ist Alice W204’s Gehalt? (Geben Sie nur die Zahl zurück, z.B. ‘85200’.)”
A. “131370”

Wie gut hat das LLM jedes Format verstanden?

Format	Genauigkeit	95% Konfidenzintervall	Tokens
Markdown-KV	60.7%	57.6% – 63.7%	52,104
XML	56.0%	52.9% – 59.0%	76,114
INI	55.7%	52.6% – 58.8%	48,100
YAML	54.7%	51.6% – 57.8%	55,395
HTML	53.6%	50.5% – 56.7%	75,204
JSON	52.3%	49.2% – 55.4%	66,396
Markdown-Table	51.9%	48.8% – 55.0%	25,140
Natürliche Sprache	49.6%	46.5% – 52.7%	43,411
JSONL	45.0%	41.9% – 48.1%	54,407
CSV	44.3%	41.2% – 47.4%	19,524
Pipe-Delimited	41.1%	38.1% – 44.2%	43,098

Praktische Hinweise

Basierend auf den Ergebnissen unseres Experiments:

Wenn Sie stark auf tabellarische Daten angewiesen sind, sollten Sie testen, ob die Umwandlung dieser Daten in ein anderes Format die Genauigkeit verbessert.
Markdown-KV scheint ein gutes Standardformat zu sein, wenn Genauigkeit von größter Bedeutung ist.
Markdown-Tabellen sind eine gute Wahl, wenn Sie ein Gleichgewicht zwischen Lesbarkeit und Kosten benötigen.
Seien Sie vorsichtig, wenn Sie standardmäßig CSV oder JSONL verwenden – diese gängigen Formate könnten die Genauigkeit Ihres Systems beeinträchtigen.

Limitationen und Bereiche für weitere Studien

Wir haben nur OpenAI’s GPT-4.1-nano getestet. Andere Modelle, insbesondere von anderen Anbietern, könnten mit unterschiedlichen Datenformaten besser abschneiden. Außerdem haben wir nur ein Muster von Daten getestet. Die Ergebnisse könnten bei anderen Datenmustern unterschiedlich sein. Es wäre auch interessant, mit verschachtelten Daten wie JSON-Konfigurationen und Tabellen mit zusammengeführten Zellen zu testen.

Schlussfolgerungen

Wir waren überrascht, wie sehr das Eingabedatenformat zu zählen scheint. Unsere Ergebnisse legen nahe, dass einfache Datenumwandlungen in einigen Fällen eine einfache Möglichkeit sein könnten, die Genauigkeit Ihrer LLM-basierten Systeme zu verbessern. Wir sind gespannt, dieses Thema weiter zu untersuchen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Welches Tabellenformat verstehen LLMs am besten? Ergebnisse für 11 Formate

Warum diese Frage wichtig ist

Token-Kosten

Unsere Methodologie

Beispiel Frage-Antwort-Paare

Wie gut hat das LLM jedes Format verstanden?

Praktische Hinweise

Limitationen und Bereiche für weitere Studien

Schlussfolgerungen

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Warum diese Frage wichtig ist

Token-Kosten

Unsere Methodologie

Beispiel Frage-Antwort-Paare

Wie gut hat das LLM jedes Format verstanden?

Praktische Hinweise

Limitationen und Bereiche für weitere Studien

Schlussfolgerungen

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter