Artikelbild für den Artikel: Nanonets OCR Small: Revolutionierung der Texterkennung mit semantischem Verständnis

Nanonets OCR Small: Revolutionierung der Texterkennung mit semantischem Verständnis

Heute freuen wir uns, die Veröffentlichung von Nanonets-OCR-s bekannt zu geben, einem hochmodernen OCR-Modell, das Bilder in Markdown umwandelt und weit über die traditionelle Textextraktion hinausgeht. Dieses leistungsstarke Modell transformiert Dokumente in strukturiertes Markdown mit intelligenter Inhaltserkennung und semantischer Tagging.

Einführung in Nanonets-OCR-s

Die meisten öffentlich verfügbaren Bild-zu-Text-Modelle konzentrieren sich hauptsächlich auf die Extraktion von einfachem Text aus Bildern. Sie sind jedoch oft nicht in der Lage, zwischen regulärem Inhalt und Elementen wie Wasserzeichen, Unterschriften oder Seitenzahlen zu unterscheiden. Visuelle Elemente wie Bilder werden häufig ignoriert, und komplexe Strukturen wie Tabellen, Kontrollkästchen und Gleichungen werden nicht effektiv behandelt, was diese Modelle für nachgelagerte Aufgaben weniger geeignet macht.

Im Gegensatz zu herkömmlichen OCR-Systemen, die einfach nur Klartext extrahieren, versteht Nanonets-OCR-s die Dokumentstruktur und den Kontext des Inhalts (wie Tabellen, Gleichungen, Bilder, Diagramme, Wasserzeichen, Kontrollkästchen usw.) und liefert intelligent formatierten Markdown-Ausgaben, die bereit für die Verarbeitung durch große Sprachmodelle sind.

Hauptmerkmale und Fähigkeiten

  • LaTeX-Gleichungserkennung
  • Intelligente Bildbeschreibung
  • Unterschriftenerkennung und -isolierung
  • Wasserzeichenerkennung
  • Intelligente Checkbox-Verarbeitung
  • Komplexe Tabellenerkennung

1. LaTeX-Gleichungserkennung

Das Modell wandelt mathematische Gleichungen und Formeln automatisch in korrekt formatierten LaTeX-Syntax um. Inline-mathematische Ausdrücke werden in LaTeX-Inline-Gleichungen umgewandelt, während angezeigte Gleichungen in LaTeX-Anzeigegleichungen konvertiert werden.

2. Intelligente Bildbeschreibung

Das Modell beschreibt Bilder innerhalb von Dokumenten mithilfe strukturierter Tags, wodurch sie für die Verarbeitung durch LLM verständlich werden. Es kann ein oder mehrere Bilder (Logos, Diagramme, Grafiken, QR-Codes usw.) hinsichtlich ihres Inhalts, Stils und Kontexts beschreiben.

3. Unterschriftenerkennung und -isolierung

Das Modell identifiziert und isoliert Unterschriften von anderem Text in Dokumenten, was für die Verarbeitung von rechtlichen und geschäftlichen Dokumenten entscheidend ist.

4. Wasserzeichenerkennung

Ähnlich wie bei der Unterschriftenkennung kann das Modell Wasserzeichen aus Dokumenten erkennen und extrahieren.

5. Intelligente Checkbox-Verarbeitung

Das Modell konvertiert Formular-Checkboxen und Optionsfelder in standardisierte Unicode-Symbole für eine konsistente Verarbeitung.

6. Komplexe Tabellenerkennung

Es extrahiert komplexe Tabellen aus Dokumenten und wandelt sie in Markdown- und HTML-Tabellen um.

Trainingsdetails

Um unser neues Visual-Language-Modell (VLM) für präzise optische Zeichenerkennung (OCR) zu trainieren, haben wir einen Datensatz mit über 250.000 Seiten zusammengestellt. Der Datensatz umfasst verschiedene Dokumenttypen: Forschungsarbeiten, Finanzdokumente, rechtliche Dokumente, Gesundheitsdokumente, Steuerformulare, Quittungen und Rechnungen. Darüber hinaus enthält die Sammlung Dokumente mit Bildern, Diagrammen, Gleichungen, Unterschriften, Wasserzeichen, Kontrollkästchen und komplexen Tabellen.

Wir haben sowohl synthetische als auch manuell annotierte Datensätze verwendet. Zunächst haben wir das Modell auf dem synthetischen Datensatz trainiert und es dann auf dem manuell annotierten Datensatz feinabgestimmt.

Wir haben das Modell Qwen2.5-VL-3B als Basis für unser Visual-Language-Modell (VLM) ausgewählt. Dieses Modell wurde anschließend auf dem kuratierten Datensatz feinabgestimmt, um seine Leistung bei dokumentenspezifischen OCR-Aufgaben zu verbessern.

Einschränkungen

  • Das Modell wurde nicht auf handschriftlichen Text trainiert.
  • Das Modell kann unter Halluzinationen leiden.

Anwendungsfälle

Nanonets-OCR-s optimiert komplexe Dokumenten-Workflows in verschiedenen Branchen, indem es strukturierte Daten aus unstrukturierten Formaten freisetzt:

  • Akademische und Forschungsanwendungen: Digitalisiert Arbeiten mit LaTeX-Gleichungen und Tabellen.
  • Rechtliche und finanzielle Anwendungen: Extrahiert Daten aus Verträgen und Finanzdokumenten, einschließlich Unterschriften und Tabellen.
  • Gesundheitswesen und Pharma: Erfasst genau Text und Kontrollkästchen aus medizinischen Formularen.
  • Unternehmen und Konzerne: Wandelt Berichte in durchsuchbare, bildbewusste Wissensdatenbanken um.

In einer Welt, die sich in Richtung LLM-gesteuerter Automatisierung bewegt, ist unstrukturierte Daten das größte Hindernis. Nanonets-OCR-s überbrückt diese Lücke, indem es chaotische Dokumente in sauberen, strukturierten und kontextreichen Markdown umwandelt, die moderne KI-Anwendungen verlangen.

Jetzt ausprobieren!

Wir haben Nanonets-OCR-s mit docext integriert. Fühlen Sie sich frei, es auszuprobieren. Starten Sie eine Diskussion auf GitHub oder Hugging Face, wenn Sie Fragen haben.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar