LinuxHint hat bereits ein Tutorial veröffentlicht, in dem erklärt wird, wie man das Training von Tesseract installiert und versteht.
Dieses Tutorial zeigt den Installationsprozess von Tesseract in Debian/Ubuntu-Systemen, wird jedoch nicht auf Trainingsfunktionen erweitert, wenn Sie mit dieser Software nicht vertraut sind, kann das Lesen des genannten Artikels eine gute Einführung sein. Dann zeigen wir Ihnen, wie Sie ein GIF-Bild mit Tesseract bearbeiten, um den Text daraus zu bekommen.
Tesseract-Installation:
Lauf:
apt installieren tesseract-ocr
Jetzt müssen Sie imagemagick installieren, einen Bildkonverter.
Nach der Installation können wir Tesseract bereits testen, zum Testen habe ich ein GIF gefunden, das zur Wiederverwendung lizenziert ist.
Sehen wir uns nun an, was passiert, wenn wir Tesseract auf dem Gif-Bild ausführen:
tesseract 2002NY40.gif 1Ergebnis
Machen Sie jetzt ein „weniger“ bei 1Ergebnis.TXT
weniger 1Ergebnis.TXT
Hier ist das Bild mit seinem Text:
In diesem Tesseract sind die Standardeinstellungen ziemlich genau, normalerweise ist eine Schulung erforderlich, um eine solche Genauigkeit zu erreichen. Versuchen wir ein anderes kostenloses Bild, das ich auf Wiki Commons gefunden habe, nachdem ich es heruntergeladen habe:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2Ergebnis
Überprüfen Sie nun den Inhalt der Datei.
weniger 2Ergebnis.TXT
Das war das Ergebnis, während der Inhalt des Originalbilds wie folgt lautete:
Um die Zeichenerkennung zu verbessern, müssen wir viele Optionen und Schritte befolgen, die in unserem vorherigen Tutorial beschrieben wurden: Randentfernung, Rauschentfernung, Größenoptimierung und Seitendrehung unter anderen Funktionen wie Zuschneiden.
Für dieses Tutorial verwenden wir textcleaner, ein Skript, das von Freds ImageMagick Scripts entwickelt wurde.
Laden Sie das Skript herunter und führen Sie Folgendes aus:
./textcleaner -g -e strecken -f 25 -o 10 -s 1Aktualisieren_GNULinux_Terminal_apt-get.gif-test.gif
Hinweis: Bevor Sie das Skript ausführen, geben Sie ihm Ausführungsberechtigungen, indem Sie "chmod +x textcleaner” als Wurzel oder mit sudo Präfix.
Wo:
Textreiniger: ruft das Programm auf
-G: Konvertieren Sie das Bild in Graustufen
-e: enache
-f: Filtergröße
-so: Sharpamt, Betrag der Pixelschärfung, der auf das Ergebnis angewendet werden soll.
Informationen und Anwendungsbeispiele mit textcleaner finden Sie unter http://www.fmwconcepts.com/imagemagick/textcleaner/index.php
Wie Sie sehen, hat textcleaner die Hintergrundfarbe geändert, um den Kontrast zwischen Schriftart und Hintergrund zu erhöhen.
Wenn wir tesseract ausführen, sieht das Ergebnis wahrscheinlich anders aus:
Tesseract-Test.gif Testausgabeweniger Testausgabe
Wie Sie sehen, hat sich das Ergebnis wirklich verbessert, auch wenn es nicht ganz genau ist.
Der Befehl Konvertieren bereitgestellt von imagemagick ermöglicht es uns, Frames aus Gif-Bildern zu extrahieren, die später von Tesseract verarbeitet werden.
Die Syntax ist einfach:
KonvertierenDas Ergebnis wird als Anzahl von Dateien als Frames im GIF generiert, im bereitgestellten Beispiel wären die Ergebnisse: Ausgang-0.jpg, Ausgang-1.jpg, Ausgang-2.jpg, usw.
Dann können Sie sie mit tesseract verarbeiten und anweisen, alle Dateien mit einem Platzhalter zu verarbeiten, um das Ergebnis in einer einzigen Datei zu speichern, indem Sie Folgendes ausführen:
für i in Ausgabe-* ; tesseract $i outputresult; getan;Imagemagick bietet eine Vielzahl von Optionen zum Optimieren von Bildern und es gibt keinen generischen Modus. Für jede Art von Szenario sollten Sie die Manpage des Befehls von convert lesen.
Ich hoffe, Sie fanden dieses Tutorial zu Tesseract hilfreich.