Artikelbild für den Artikel: DON'T BOTHER PARSING: JUST USE IMAGES FOR RAG

DON’T BOTHER PARSING: JUST USE IMAGES FOR RAG

Die Extraktion von Informationen aus komplexen PDFs kann eine echte Herausforderung darstellen. Die Branche hat enorme Anstrengungen und Kosten in OCR, Layout-Erkennung und Parsing-Pipelines investiert, nur um festzustellen, dass die wichtigsten Informationen oft verloren gehen. Vision Language Models (VLMs) haben sich jedoch so weit entwickelt, dass sie Dokumente direkt verstehen können, ohne Parsing, OCR oder Rekonstruktion. In diesem Artikel werden die Vorteile dieser neuen Herangehensweise erläutert und wie Morphik diese Technologie nutzt, um die Informationsbeschaffung zu revolutionieren.

Die Herausforderungen traditioneller Ansätze

Wenn Sie jemals versucht haben, Informationen aus einem komplexen PDF zu extrahieren – sei es eine Rechnung mit verschachtelten Tabellen, ein Forschungspapier mit komplizierten Abbildungen oder ein technisches Handbuch mit annotierten Diagrammen – wissen Sie, wie frustrierend das sein kann. Oftmals scheitern unsere sorgfältig gestalteten Parsing-Pipelines daran, die Informationen korrekt zu erfassen. Das Geheimnis der Branche ist, dass wir enorme Anstrengungen (und Geld) in OCR, Layout-Erkennung und Parsing-Pipelines investieren, die dennoch die wichtigsten Informationen verlieren.

„Es ist, als würde man versuchen, einen Film zu schauen, indem man nur das Drehbuch liest: Man verpasst die gesamte visuelle Erzählung, die ihn bedeutungsvoll macht.“

Der traditionelle Ansatz: Ein Kartenhaus

Als wir bei Morphik mit dem Aufbau unserer Retrieval-Augmented Generation (RAG) begannen, folgten wir dem traditionellen Ansatz: Wir stellten die Standard-Dokumentenverarbeitungspipeline zusammen. Diese Pipeline besteht aus mehreren fehleranfälligen Schritten, die von OCR über Layout-Erkennung bis hin zur Generierung von Embeddings reichen. Jeder dieser Schritte birgt das Risiko, dass wichtige Informationen verloren gehen.

Der Lichtblick: Was wäre, wenn wir einfach… die Seite betrachten?

Die entscheidende Erkenntnis kam während einer Debugging-Sitzung. Mein Mitgründer und Bruder Arnav stellte die Frage, die alles veränderte: „Warum zerlegen wir diese Dokumente, nur um die Bedeutung wiederherzustellen? Was wäre, wenn wir sie so behandeln würden, wie Menschen es tun: als visuelle Objekte?“ Diese einfache, aber revolutionäre Idee führte zur Entwicklung von Vision Language Models, die in der Lage sind, Dokumente direkt zu verstehen.

Wie visuelle Dokumentenretrieval tatsächlich funktioniert

Das ColPali-Modell betrachtet jede Dokumentenseite als Bild und teilt dieses Bild in Abschnitte auf. Anstatt Text zu extrahieren, erstellt es reichhaltige Embeddings, die sowohl textuelle als auch visuelle Elemente im Kontext verstehen. Wenn Sie nach „Q3-Umsatztrends“ suchen, findet das Modell nicht nur die genauen Wörter, sondern auch die relevanten Teile von Diagrammen und Tabellen, die die Informationen visuell darstellen.

Die realen Vorteile von Morphik

Bei Morphik haben wir ColPali implementiert und schnell festgestellt, dass die Produktentwicklung komplexer war als ursprünglich gedacht. Dennoch haben wir in einer systematischen Bewertung festgestellt, dass unser Ansatz eine Genauigkeit von 95,56 % bei der Beantwortung herausfordernder Fragen zu Finanzdokumenten erreichte, während andere Anbieter nur etwa 67 % erreichten.

Die Geschwindigkeitsproblematik und wie wir sie gelöst haben

Obwohl wir eine hohe Genauigkeit erreicht haben, war unsere erste Implementierung langsam. Die visuelle Verarbeitung ist rechenintensiv. Durch die Implementierung des MUVERA-Papiers konnten wir die Suche erheblich beschleunigen, indem wir die Suche nach mehreren Vektoren auf eine Suche nach einem einzelnen Vektor reduzierten. Dies führte zu einer drastischen Reduzierung der Abfragezeit von mehreren Sekunden auf nur 30 Millisekunden.

Was das für Sie bedeutet

Mit der visuellen Dokumentenretrieval-Technologie von Morphik müssen Sie sich nicht mehr mit Parsing-Bibliotheken herumschlagen. Sie können einfach Ihre Dokumente – PDFs, Bilder oder sogar Fotos von Whiteboards – hochladen und mit natürlicher Sprache suchen. Dies funktioniert besonders gut für:

  • Finanzdokumente
  • Technische Handbücher
  • Rechnungen und Quittungen
  • Forschungspapiere
  • Medizinische Aufzeichnungen

Die Zukunft: Über einfache Retrieval hinaus

Die visuelle Dokumentenverarbeitung löst das grundlegende Problem, aber die realen Dokumenten-Workflows erfordern viel mehr als nur die einmalige Abfrage. Die Zukunft, auf die wir hinarbeiten, beinhaltet Dokumente, die den Kontext, die Beziehungen und komplexe Schlussfolgerungen wirklich verstehen. Wir entwickeln Systeme, die nicht nur Informationen abrufen, sondern auch verstehen, wie verschiedene Informationen miteinander in Beziehung stehen.

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar