Installieren von Tesseract OCR unter Linux

Tesseract OCR (Optical Character Recognition) ist eine kostenlose Open-Source-Engine und ein Befehlszeilenprogramm zum Extrahieren von Text aus Bildern mithilfe von optischer Zeichenerkennungstechnologie und Algorithmen. Das Projekt wird von Google unterstützt und gilt ab heute als die beste verfügbare Open-Source-OCR-Engine. Es kann Text in zahlreichen Sprachen mit hoher Genauigkeit erkennen und extrahieren.

Installieren von Tesseract OCR unter Linux

Tesseract OCR ist standardmäßig auf den meisten Linux-Distributionen verfügbar. Sie können es in Ubuntu mit dem folgenden Befehl installieren:

$ sudo apt install tesseract-ocr

Detaillierte Anleitungen für andere Distributionen sind verfügbar Hier. Obwohl Tesseract OCR standardmäßig in Repositorys vieler Linux-Distributionen verfügbar ist, wird empfohlen, die neueste Version über den oben genannten Link zu installieren, um die Genauigkeit und das Parsen zu verbessern.

Installieren der Unterstützung für zusätzliche Sprachen in Tesseract OCR

Tesseract OCR unterstützt die Erkennung von Text in über 100 Sprachen. Sie erhalten jedoch nur Unterstützung für die Erkennung von Text in englischer Sprache mit der Standardinstallation in Ubuntu. Um Unterstützung für das Parsen zusätzlicher Sprachen in Ubuntu hinzuzufügen, führen Sie einen Befehl im folgenden Format aus:

$ sudo apt install tesseract-ocr-hin

Der obige Befehl fügt Tesseract OCR . Unterstützung für die Sprache Hindi hinzu. Manchmal können Sie eine bessere Genauigkeit und bessere Ergebnisse erzielen, indem Sie Unterstützung für Sprachskripte installieren installing. Zum Beispiel lieferte mir die Installation und Verwendung des tesseract-Pakets für das Devanagari-Skript „tesseract-ocr-script-deva“ viel genauere Ergebnisse als die Verwendung des „tesseract-ocr-hin“-Pakets.

In Ubuntu können Sie die richtigen Paketnamen für alle Sprachen und Skripte finden, indem Sie den folgenden Befehl ausführen:

$ apt-Cache-Suche tesseract-

Sobald Sie den richtigen Paketnamen für die Installation identifiziert haben, ersetzen Sie die Zeichenfolge „tesseract-ocr-hin“ im ersten oben angegebenen Befehl damit.

Verwenden von Tesseract OCR zum Extrahieren von Text aus Bildern

Nehmen wir ein Beispiel für ein unten gezeigtes Bild (von der Wikipedia-Seite für Linux):

Um Text aus dem obigen Bild zu extrahieren, müssen Sie einen Befehl im folgenden Format ausführen:

$ tesseract-Aufnahme.png-Ausgabe -l eng

Wenn Sie den obigen Befehl ausführen, erhalten Sie die folgende Ausgabe:

Im obigen Befehl „capture“.png“ bezieht sich auf das Bild, aus dem Sie den Text extrahieren möchten. Die erfasste Ausgabe wird dann in der „Ausgabe“ gespeichert.txt“-Datei. Sie können die Sprache ändern, indem Sie das Argument „eng“ durch Ihre eigene Wahl ersetzen. Führen Sie den folgenden Befehl aus, um alle gültigen Sprachen anzuzeigen:

$ tesseract --list-langs

Es werden Abkürzungscodes für alle Sprachen angezeigt, die von Tesseract OCR auf Ihrem System unterstützt werden. Standardmäßig wird nur „eng“ als Ausgabe angezeigt. Wenn Sie jedoch wie oben beschrieben Pakete für zusätzliche Sprachen installieren, listet dieser Befehl weitere Sprachen auf, die Sie zum Erkennen von Text verwenden können (als ISO 639 3-Buchstaben-Sprachcodes).

Wenn das Bild Text in mehreren Sprachen enthält, definieren Sie zuerst die primäre Sprache, gefolgt von weiteren Sprachen, die durch Pluszeichen getrennt sind.

$ tesseract-Aufnahme.png-Ausgabe -l eng+fra

Wenn Sie die Ausgabe als durchsuchbare PDF-Datei speichern möchten, führen Sie einen Befehl im folgenden Format aus:

$ tesseract-Aufnahme.png-Ausgabe -l eng pdf

Beachten Sie, dass die durchsuchbare PDF-Datei keinen bearbeitbaren Text enthält. Es enthält das Originalbild mit einer zusätzlichen Ebene, die den erkannten Text enthält, der dem Bild überlagert ist. Sie können den Text in der PDF-Datei zwar mit jedem PDF-Reader genau durchsuchen, den Text jedoch nicht bearbeiten.

Ein weiterer Punkt, den Sie beachten sollten, dass die Genauigkeit der Texterkennung stark ansteigt, wenn die Bilddatei von hoher Qualität ist. Wenn Sie die Wahl haben, verwenden Sie immer verlustfreie Dateiformate oder PNG-Dateien. Die Verwendung von JPG-Dateien liefert möglicherweise nicht die besten Ergebnisse.

Extrahieren von Text aus einer mehrseitigen PDF-Datei

Tesseract OCR unterstützt nativ das Extrahieren von Text aus PDF-Dateien. Es ist jedoch möglich, Text aus einer mehrseitigen PDF-Datei zu extrahieren, indem Sie jede Seite in eine Bilddatei konvertieren. Führen Sie den folgenden Befehl aus, um eine PDF-Datei in eine Reihe von Bildern zu konvertieren:

$ pdftoppm -png-Datei.PDF-Ausgabe

Für jede Seite der PDF-Datei erhalten Sie eine entsprechende „Ausgabe-1“.png“, „Ausgabe-2“.png“-Datei und so weiter.

Um nun mit einem einzigen Befehl Text aus diesen Bildern zu extrahieren, müssen Sie eine „for-Schleife“ in einem Bash-Befehl verwenden:

$ für i in *.png; tesseract "$i" "Ausgabe-$i" -l eng; getan;

Wenn Sie den obigen Befehl ausführen, wird Text aus allen ".png“-Dateien im Arbeitsverzeichnis und speichern Sie den erkannten Text in „output-original_filename.txt“-Dateien. Sie können den mittleren Teil des Befehls nach Ihren Bedürfnissen ändern.

Wenn Sie alle Textdateien kombinieren möchten, die den erkannten Text enthalten, führen Sie den folgenden Befehl aus:

$ Katze *.txt > beigetreten.TXT

Der Prozess zum Extrahieren von Text aus einer mehrseitigen PDF-Datei in durchsuchbare PDF-Dateien ist nahezu gleich. Sie müssen dem Befehl ein zusätzliches „pdf“-Argument hinzufügen:

$ für i in *.png; tesseract "$i" "Ausgabe-$i" -l eng pdf; getan;

Wenn Sie alle durchsuchbaren PDF-Dateien kombinieren möchten, die den erkannten Text enthalten, führen Sie den folgenden Befehl aus:

$pdfunit*.pdf beigetreten.pdf

Sowohl „pdftoppm“ als auch „pdfunite“ werden standardmäßig auf der neuesten stabilen Version von Ubuntu installiert.

Vor- und Nachteile des Extrahierens von Text in TXT- und durchsuchbaren PDF-Dateien

Wenn Sie erkannten Text in TXT-Dateien extrahieren, erhalten Sie eine bearbeitbare Textausgabe. Alle Formatierungen des Dokuments gehen jedoch verloren (fette, kursive Zeichen usw.). Durchsuchbare PDF-Dateien behalten die ursprüngliche Formatierung bei, aber Sie verlieren die Textbearbeitungsfunktionen (Sie können weiterhin Rohtext kopieren). Wenn Sie die durchsuchbare PDF-Datei in einem beliebigen PDF-Editor öffnen, erhalten Sie eingebettete Bilder in der Datei und keine Rohtextausgabe. Wenn Sie die durchsuchbaren PDF-Dateien in HTML oder EPUB konvertieren, erhalten Sie auch eingebettete Bilder.

Fazit

Tesseract OCR ist heute eine der am häufigsten verwendeten OCR-Engines. Es ist kostenlos, Open Source und unterstützt über hundert Sprachen. Stellen Sie bei der Verwendung von Tesseract OCR sicher, dass Sie hochauflösende Bilder und korrekte Sprachcodes in Befehlszeilenargumenten verwenden, um die Genauigkeit der Texterkennung zu verbessern.