Artikelbild für den Artikel: Wie wir ein maßgeschneidertes Vision LLM zur Verbesserung der Dokumentenverarbeitung bei Grab entwickelt haben

Wie wir ein maßgeschneidertes Vision LLM zur Verbesserung der Dokumentenverarbeitung bei Grab entwickelt haben

In der Welt der digitalen Dienstleistungen ist die präzise Extraktion von Informationen aus benutzereingereichten Dokumenten, wie Ausweisen, Führerscheinen und Registrierungsbescheinigungen, ein entscheidender erster Schritt für Prozesse wie das elektronische Know-Your-Customer (eKYC). Diese Aufgabe ist besonders herausfordernd in Südostasien (SEA) aufgrund der Vielfalt an Sprachen und Dokumentenformaten. Um die Einschränkungen traditioneller Optical Character Recognition (OCR) Systeme zu überwinden, hat Grab ein leichtgewichtiges, spezialisiertes Vision LLM (Large Language Model) von Grund auf entwickelt. In diesem Artikel schildern wir den gesamten Prozess.

Hintergrund

Traditionelle OCR-Systeme stoßen oft an ihre Grenzen, wenn es darum geht, die Vielzahl an Dokumentvorlagen zu verarbeiten, die in SEA verwendet werden. Während leistungsstarke proprietäre LLMs eine Option darstellen, scheitern sie häufig daran, die Sprachen der Region zu verstehen, produzieren Fehler und Halluzinationen und weisen hohe Latenzzeiten auf. Im Gegensatz dazu sind Open-Source-Vision-LLMs effizienter, jedoch nicht genau genug für den Produktionsbetrieb. Dies führte uns dazu, ein leichtgewichtiges, spezialisiertes Vision LLM zu entwickeln.

Was ist ein Vision LLM?

Ein Vision LLM geht über die Verarbeitung von Text hinaus und ermöglicht es dem Modell, Bilder zu verstehen. Die grundlegende Architektur umfasst drei Hauptkomponenten:

  • Bildencoder: Dieser Teil „sieht“ sich ein Bild an und wandelt es in ein numerisches (vektorisiertes) Format um.
  • Vision-Language-Projektor: Er fungiert als Übersetzer, der das numerische Format des Bildes in eine Darstellung umwandelt, die das Sprachmodell verstehen kann.
  • Sprachmodell: Das vertraute textbasierte Modell, das die kombinierte Eingabe aus Bild und Text verarbeitet, um eine finale Textausgabe zu generieren.

Auswahl unseres Basis-Vision-LLM-Modells

Wir haben eine Reihe von LLMs evaluiert, die OCR und Key Information Extraction (KIE) durchführen können. Bei unserer Untersuchung von Open-Source-Optionen, einschließlich Qwen2VL, miniCPM, Llama3.2 Vision, Pixtral 12B, GOT-OCR2.0 und NVLM 1.0, haben wir uns für Qwen2-VL 2B als unser Basis-Multimodal-LLM entschieden. Diese Entscheidung basierte auf mehreren kritischen Faktoren:

  • Effiziente Größe: Klein genug für das vollständige Fine-Tuning auf GPUs mit begrenzten VRAM-Ressourcen.
  • Unterstützung von SEA-Sprachen: Der Tokenizer ist effizient für Sprachen wie Thai und Vietnamesisch, was auf eine anständige native Vokabularabdeckung hinweist.
  • Dynamische Auflösung: Im Gegensatz zu Modellen, die feste Bildgrößen erfordern, kann Qwen2-VL Bilder in ihrer nativen Auflösung verarbeiten, was entscheidend für OCR-Aufgaben ist.

Generierung des Trainingsdatensatzes

Wir extrahierten den Textinhalt in SEA-Sprachen aus einem großen Online-Textkorpus – Common Crawl. Anschließend verwendeten wir eine interne synthetische Datenpipeline, um Textbilder zu generieren, indem wir SEA-Textinhalte in verschiedenen Schriftarten und Hintergründen darstellten. Das Dataset enthält Texte in Bahasa Indonesia, Thai, Vietnamesisch und Englisch.

Documint: AI-gestütztes Auto-Labeling-Framework

Unsere Experimente zeigten, dass die Anwendung von Dokumentenerkennung und Ausrichtungsanpassung die OCR- und Informationsextraktion erheblich verbessert. Documint ist eine interne Plattform, die unser Team entwickelt hat, um ein Auto-Labeling- und Vorverarbeitungs-Framework für das Dokumentenverständnis zu erstellen. Es bereitet qualitativ hochwertige, beschriftete Datensätze vor.

Experimentierphasen

Phase 1: Das LoRA-Experiment

Unser erster Versuch, ein Vision LLM zu fine-tunen, beinhaltete die Verwendung einer Technik namens Low-Rank Adaptation (LoRA). Diese Methode ist effizient, da sie leichte Aktualisierungen der Modellparameter ermöglicht. Wir trainierten das Modell mit unseren kuratierten Dokumentdaten, die verschiedene Dokumentvorlagen in mehreren Sprachen enthielten.

Phase 2: Die Kraft des vollständigen Fine-Tunings

Unsere Experimente zeigten eine wesentliche Einschränkung. Während Open-Source-Vision-LLMs oft eine umfangreiche mehrsprachige Korpusabdeckung für das Pre-Training des LLM-Decoders haben, fehlt es ihnen an visuellem Text in SEA-Sprachen während des Trainings. Dies führte uns dazu, vollständiges Parameter-Fine-Tuning für optimale Ergebnisse zu verfolgen.

Phase 3: Aufbau eines leichten 1B-Modells von Grund auf

Obwohl das Qwen2VL-2B Modell erfolgreich war, überschritt das vollständige Fine-Tuning die Grenzen der GPUs. Um Ressourcen zu optimieren und ein Modell zu schaffen, das perfekt auf unsere Bedürfnisse zugeschnitten ist, beschlossen wir, ein leichtgewichtiges Vision LLM (~1B Parameter) von Grund auf neu zu entwickeln.

Die finalen Ergebnisse

Das neu entwickelte Modell erreichte eine Leistung, die mit dem größeren 2B-Modell vergleichbar war, wobei es in den meisten Dokumenttypen innerhalb einer Genauigkeitsabweichung von 3pp blieb. Die Latenz unseres Modells übertrifft die des 2B-Modells sowie traditioneller OCR-Modelle.

Schlussfolgerungen

Unsere Arbeit zeigt, dass strategisches Training mit hochwertigen Daten es kleineren, spezialisierten Modellen ermöglicht, bemerkenswerte Effizienz und Effektivität zu erreichen. Hier sind die entscheidenden Erkenntnisse aus unseren umfangreichen Experimenten:

  • Vollständiges Fine-Tuning ist überlegen.
  • Leichte Modelle sind effektiv.
  • Das Basis-Modell ist entscheidend.
  • Daten sind König.
  • Die native Auflösung ist ein Game Changer.

Was kommt als Nächstes?

Wir entwickeln intelligentere, anpassungsfähigere Modelle und erweitern unsere Unterstützung auf alle Grab-Märkte, um unsere fortschrittliche Dokumentenverarbeitung auch in Myanmar, Kambodscha und darüber hinaus anzubieten.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar