OCR

So führen Sie Tesseract in einer GIF-Datei unter Linux aus

So führen Sie Tesseract in einer GIF-Datei unter Linux aus
Tesseract ist ein OCR-System (Optical Character Recognition), das zu den besten gehört. OCR-Software ist in der Lage, Text aus Bildern und gescannten Dokumenten zu verstehen (einschließlich Handschrift, wenn Sie sie trainieren). Ein OCR-System kann für viele Aufgaben nützlich sein, wie das Zählen von Wörtern, gescannte Dokumente, automatische Transkription, Zeichenkonvertierung von Bild zu Text und mehr.

LinuxHint hat bereits ein Tutorial veröffentlicht, in dem erklärt wird, wie man das Training von Tesseract installiert und versteht.

Dieses Tutorial zeigt den Installationsprozess von Tesseract in Debian/Ubuntu-Systemen, wird jedoch nicht auf Trainingsfunktionen erweitert, wenn Sie mit dieser Software nicht vertraut sind, kann das Lesen des genannten Artikels eine gute Einführung sein.  Dann zeigen wir Ihnen, wie Sie ein GIF-Bild mit Tesseract bearbeiten, um den Text daraus zu bekommen.

Tesseract-Installation:

Lauf:

apt installieren tesseract-ocr

Jetzt müssen Sie imagemagick installieren, einen Bildkonverter.

Nach der Installation können wir Tesseract bereits testen, zum Testen habe ich ein GIF gefunden, das zur Wiederverwendung lizenziert ist.

Sehen wir uns nun an, was passiert, wenn wir Tesseract auf dem Gif-Bild ausführen:

tesseract 2002NY40.gif 1Ergebnis

Machen Sie jetzt ein „weniger“ bei 1Ergebnis.TXT

weniger 1Ergebnis.TXT

Hier ist das Bild mit seinem Text:

In diesem Tesseract sind die Standardeinstellungen ziemlich genau, normalerweise ist eine Schulung erforderlich, um eine solche Genauigkeit zu erreichen. Versuchen wir ein anderes kostenloses Bild, das ich auf Wiki Commons gefunden habe, nachdem ich es heruntergeladen habe:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2Ergebnis

Überprüfen Sie nun den Inhalt der Datei.

weniger 2Ergebnis.TXT


Das war das Ergebnis, während der Inhalt des Originalbilds wie folgt lautete:

Um die Zeichenerkennung zu verbessern, müssen wir viele Optionen und Schritte befolgen, die in unserem vorherigen Tutorial beschrieben wurden: Randentfernung, Rauschentfernung, Größenoptimierung und Seitendrehung unter anderen Funktionen wie Zuschneiden.

Für dieses Tutorial verwenden wir textcleaner, ein Skript, das von Freds ImageMagick Scripts entwickelt wurde.

Laden Sie das Skript herunter und führen Sie Folgendes aus:

./textcleaner -g -e strecken -f 25 -o 10 -s 1
Aktualisieren_GNULinux_Terminal_apt-get.gif-test.gif

Hinweis: Bevor Sie das Skript ausführen, geben Sie ihm Ausführungsberechtigungen, indem Sie "chmod +x textcleaner” als Wurzel oder mit sudo Präfix.

Wo:

Textreiniger: ruft das Programm auf

-G: Konvertieren Sie das Bild in Graustufen

-e: enache

-f: Filtergröße

-so: Sharpamt, Betrag der Pixelschärfung, der auf das Ergebnis angewendet werden soll.

Informationen und Anwendungsbeispiele mit textcleaner finden Sie unter http://www.fmwconcepts.com/imagemagick/textcleaner/index.php

Wie Sie sehen, hat textcleaner die Hintergrundfarbe geändert, um den Kontrast zwischen Schriftart und Hintergrund zu erhöhen.

Wenn wir tesseract ausführen, sieht das Ergebnis wahrscheinlich anders aus:

Tesseract-Test.gif Testausgabe

weniger Testausgabe

Wie Sie sehen, hat sich das Ergebnis wirklich verbessert, auch wenn es nicht ganz genau ist.

Der Befehl Konvertieren bereitgestellt von imagemagick ermöglicht es uns, Frames aus Gif-Bildern zu extrahieren, die später von Tesseract verarbeitet werden.

Die Syntax ist einfach:

Konvertieren

Das Ergebnis wird als Anzahl von Dateien als Frames im GIF generiert, im bereitgestellten Beispiel wären die Ergebnisse: Ausgang-0.jpg, Ausgang-1.jpg, Ausgang-2.jpg, usw.

Dann können Sie sie mit tesseract verarbeiten und anweisen, alle Dateien mit einem Platzhalter zu verarbeiten, um das Ergebnis in einer einzigen Datei zu speichern, indem Sie Folgendes ausführen:

für i in Ausgabe-* ; tesseract $i outputresult; getan;

Imagemagick bietet eine Vielzahl von Optionen zum Optimieren von Bildern und es gibt keinen generischen Modus. Für jede Art von Szenario sollten Sie die Manpage des Befehls von convert lesen.

Ich hoffe, Sie fanden dieses Tutorial zu Tesseract hilfreich.

So installieren Sie League of Legends auf Ubuntu 14.04
Wenn Sie ein Fan von League of Legends sind, dann ist dies eine Gelegenheit für Sie, League of Legends zu testen. Beachten Sie, dass LOL von PlayOnLin...
Installieren Sie das neueste OpenRA-Strategiespiel auf Ubuntu Linux
OpenRA ist eine Libre/Free Real Time Strategy Game Engine, die die frühen Westwood-Spiele wie den Klassiker Command & Conquer: Red Alert Red nachbilde...
Installieren Sie den neuesten Dolphin Emulator für Gamecube & Wii unter Linux
Mit dem Dolphin Emulator können Sie Ihre ausgewählten Gamecube- und Wii-Spiele auf Linux-Personalcomputern (PC) spielen. Als frei verfügbarer Open-So...