tesseract
tesseract ist ein Texterkennungs-Programm.
Installation
$ sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra
Die tesseract-Dateien sind danach unter "/usr/share/tesseract-ocr/tessdata" installiert.
Verwendung
Zeichenerkennung in der Datei "file.tif". Das Ergebnis wird in die Datei "result.txt" geschrieben.
$ tesseract file.tif result
Weblinks
- Vorlage:enwi
- TrainingTesseract (How to use the tools provided to train Tesseract for a new language) (code.Google.com)
- Tesseract wrapper script for almost any image (Sourceforge.net) - Skript