tesseract: Unterschied zwischen den Versionen
Michi (Diskussion | Beiträge) |
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
Zeile 1: | Zeile 1: | ||
Der [[Shell-Befehl]] <b>tesseract</b> ist ein [[Texterkennung]]s-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse. | Der [[Shell-Befehl]] <b>tesseract</b> ist ein [[Texterkennung]]s-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse und lässt sich grundsätzlich für beliebige Zeichensätze und Sprachen trainieren. Für die Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch werden fertige Trainingsdaten mitgeliefert. | ||
Seit 2006 wird das Programm als Grundlage von [[Google Books]] weiterentwickelt. Es dient als Texterkennungsmodul in [[Ocropus]], das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich. | Seit 2006 wird das Programm als Grundlage von [[Google Books]] weiterentwickelt. Es dient als Texterkennungsmodul in [[Ocropus]], das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich. | ||
Zeile 20: | Zeile 20: | ||
$ <b>./configure</b> | $ <b>./configure</b> | ||
$ <b>make</b> | $ <b>make</b> | ||
Leider funktioniert die Installation von tesseract 2.03 weder mit [[checkinstall]] noch mit "make install". | |||
$ <b>sudo checkinstall</b> | $ <b>sudo checkinstall</b> | ||
$ <b>sudo make install</b> | |||
... | |||
Making install in java | |||
make[1]: Betrete Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java' | |||
make[1]: *** Keine Regel, um »install« zu erstellen. Schluss. | |||
make[1]: Verlasse Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java' | |||
make: *** [install-recursive] Fehler 1 | |||
== Verwendung == | == Verwendung == | ||
Version vom 13. April 2009, 21:10 Uhr
Der Shell-Befehl tesseract ist ein Texterkennungs-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse und lässt sich grundsätzlich für beliebige Zeichensätze und Sprachen trainieren. Für die Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch werden fertige Trainingsdaten mitgeliefert.
Seit 2006 wird das Programm als Grundlage von Google Books weiterentwickelt. Es dient als Texterkennungsmodul in Ocropus, das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich.
Installation
Ubuntu 8.04 Hardy Heron
Unter Ubuntu 8.04 kann tesseract 2.00 automatisch installiert werden.
$ sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra
Die tesseract-Dateien sind danach unter "/usr/share/tesseract-ocr/tessdata" installiert.
Besser allerdings ist es, tesseract von der offiziellen Homepage herunterzuladen (dort steht Version 2.03 bereit) und selber zu kompilieren.
$ wget http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz $ tar xzf tesseract-2.03.tar.gz $ cd tesseract-2.03 $ ./configure $ make
Leider funktioniert die Installation von tesseract 2.03 weder mit checkinstall noch mit "make install".
$ sudo checkinstall $ sudo make install ... Making install in java make[1]: Betrete Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java' make[1]: *** Keine Regel, um »install« zu erstellen. Schluss. make[1]: Verlasse Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java' make: *** [install-recursive] Fehler 1
Verwendung
Zeichenerkennung in der Datei "file.tif". Das Ergebnis wird in die Datei "result.txt" geschrieben.
$ tesseract file.tif result
Weblinks
Herausgeber | Sprache | Webseitentitel | Anmerkungen |
---|---|---|---|