Nanonets OCR Small: Revolutionierung der Texterkennung mit semantischem Verständnis
Heute freuen wir uns, die Veröffentlichung von Nanonets-OCR-s bekannt zu geben, einem hochmodernen OCR-Modell, das Bilder in Markdown umwandelt und weit über die traditionelle Textextraktion hinausgeht. Dieses leistungsstarke Modell transformiert Dokumente in strukturiertes Markdown mit intelligenter Inhaltserkennung und semantischer Tagging.
Einführung in Nanonets-OCR-s
Die meisten öffentlich verfügbaren Bild-zu-Text-Modelle konzentrieren sich hauptsächlich auf die Extraktion von einfachem Text aus Bildern. Sie sind jedoch oft nicht in der Lage, zwischen regulärem Inhalt und Elementen wie Wasserzeichen, Unterschriften oder Seitenzahlen zu unterscheiden. Visuelle Elemente wie Bilder werden häufig ignoriert, und komplexe Strukturen wie Tabellen, Kontrollkästchen und Gleichungen werden nicht effektiv behandelt, was diese Modelle für nachgelagerte Aufgaben weniger geeignet macht.
Im Gegensatz zu herkömmlichen OCR-Systemen, die einfach nur Klartext extrahieren, versteht Nanonets-OCR-s die Dokumentstruktur und den Kontext des Inhalts (wie Tabellen, Gleichungen, Bilder, Diagramme, Wasserzeichen, Kontrollkästchen usw.) und liefert intelligent formatierten Markdown-Ausgaben, die bereit für die Verarbeitung durch große Sprachmodelle sind.
Hauptmerkmale und Fähigkeiten
- LaTeX-Gleichungserkennung
- Intelligente Bildbeschreibung
- Unterschriftenerkennung und -isolierung
- Wasserzeichenerkennung
- Intelligente Checkbox-Verarbeitung
- Komplexe Tabellenerkennung
1. LaTeX-Gleichungserkennung
Das Modell wandelt mathematische Gleichungen und Formeln automatisch in korrekt formatierten LaTeX-Syntax um. Inline-mathematische Ausdrücke werden in LaTeX-Inline-Gleichungen umgewandelt, während angezeigte Gleichungen in LaTeX-Anzeigegleichungen konvertiert werden.
2. Intelligente Bildbeschreibung
Das Modell beschreibt Bilder innerhalb von Dokumenten mithilfe strukturierter Tags, wodurch sie für die Verarbeitung durch LLM verständlich werden. Es kann ein oder mehrere Bilder (Logos, Diagramme, Grafiken, QR-Codes usw.) hinsichtlich ihres Inhalts, Stils und Kontexts beschreiben.
3. Unterschriftenerkennung und -isolierung
Das Modell identifiziert und isoliert Unterschriften von anderem Text in Dokumenten, was für die Verarbeitung von rechtlichen und geschäftlichen Dokumenten entscheidend ist.
4. Wasserzeichenerkennung
Ähnlich wie bei der Unterschriftenkennung kann das Modell Wasserzeichen aus Dokumenten erkennen und extrahieren.
5. Intelligente Checkbox-Verarbeitung
Das Modell konvertiert Formular-Checkboxen und Optionsfelder in standardisierte Unicode-Symbole für eine konsistente Verarbeitung.
6. Komplexe Tabellenerkennung
Es extrahiert komplexe Tabellen aus Dokumenten und wandelt sie in Markdown- und HTML-Tabellen um.
Trainingsdetails
Um unser neues Visual-Language-Modell (VLM) für präzise optische Zeichenerkennung (OCR) zu trainieren, haben wir einen Datensatz mit über 250.000 Seiten zusammengestellt. Der Datensatz umfasst verschiedene Dokumenttypen: Forschungsarbeiten, Finanzdokumente, rechtliche Dokumente, Gesundheitsdokumente, Steuerformulare, Quittungen und Rechnungen. Darüber hinaus enthält die Sammlung Dokumente mit Bildern, Diagrammen, Gleichungen, Unterschriften, Wasserzeichen, Kontrollkästchen und komplexen Tabellen.
Wir haben sowohl synthetische als auch manuell annotierte Datensätze verwendet. Zunächst haben wir das Modell auf dem synthetischen Datensatz trainiert und es dann auf dem manuell annotierten Datensatz feinabgestimmt.
Wir haben das Modell Qwen2.5-VL-3B als Basis für unser Visual-Language-Modell (VLM) ausgewählt. Dieses Modell wurde anschließend auf dem kuratierten Datensatz feinabgestimmt, um seine Leistung bei dokumentenspezifischen OCR-Aufgaben zu verbessern.
Einschränkungen
- Das Modell wurde nicht auf handschriftlichen Text trainiert.
- Das Modell kann unter Halluzinationen leiden.
Anwendungsfälle
Nanonets-OCR-s optimiert komplexe Dokumenten-Workflows in verschiedenen Branchen, indem es strukturierte Daten aus unstrukturierten Formaten freisetzt:
- Akademische und Forschungsanwendungen: Digitalisiert Arbeiten mit LaTeX-Gleichungen und Tabellen.
- Rechtliche und finanzielle Anwendungen: Extrahiert Daten aus Verträgen und Finanzdokumenten, einschließlich Unterschriften und Tabellen.
- Gesundheitswesen und Pharma: Erfasst genau Text und Kontrollkästchen aus medizinischen Formularen.
- Unternehmen und Konzerne: Wandelt Berichte in durchsuchbare, bildbewusste Wissensdatenbanken um.
In einer Welt, die sich in Richtung LLM-gesteuerter Automatisierung bewegt, ist unstrukturierte Daten das größte Hindernis. Nanonets-OCR-s überbrückt diese Lücke, indem es chaotische Dokumente in sauberen, strukturierten und kontextreichen Markdown umwandelt, die moderne KI-Anwendungen verlangen.
Jetzt ausprobieren!
Wir haben Nanonets-OCR-s mit docext integriert. Fühlen Sie sich frei, es auszuprobieren. Starten Sie eine Diskussion auf GitHub oder Hugging Face, wenn Sie Fragen haben.
Quellenliste:
- Quelle: Nanonets OCR Small
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!