tesseract: Unterschied zwischen den Versionen
Michi (Diskussion | Beiträge) (New page: <b>tesseract</b> ist ein Texterkennungs-Programm. == Installation == $ <b>sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra</b> Die tesseract...) |
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
Zeile 1: | Zeile 1: | ||
<b>tesseract</b> ist ein [[Texterkennung]]s-Programm. | <b>tesseract</b> ist ein [[Texterkennung]]s-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse. | ||
Seit 2006 wird das Programm als Grundlage von [[Google Books]] weiterentwickelt. Es dient als Texterkennungsmodul in [[Ocropus]], das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich. | |||
== Installation == | == Installation == |
Version vom 9. Januar 2009, 21:41 Uhr
tesseract ist ein Texterkennungs-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse.
Seit 2006 wird das Programm als Grundlage von Google Books weiterentwickelt. Es dient als Texterkennungsmodul in Ocropus, das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich.
Installation
$ sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra
Die tesseract-Dateien sind danach unter "/usr/share/tesseract-ocr/tessdata" installiert.
Verwendung
Zeichenerkennung in der Datei "file.tif". Das Ergebnis wird in die Datei "result.txt" geschrieben.
$ tesseract file.tif result
Weblinks
- Vorlage:enwi
- TrainingTesseract (How to use the tools provided to train Tesseract for a new language) (code.Google.com)
- Tesseract wrapper script for almost any image (Sourceforge.net) - Skript