tesseract: Unterschied zwischen den Versionen

Aus Mikiwiki
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
 
(6 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
Der [[Shell-Befehl]] <b>tesseract</b> ist ein [[Texterkennung]]s-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse.
Der [[Shell-Befehl]] <b>tesseract</b> ist ein [[Texterkennung]]s-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse und lässt sich grundsätzlich für beliebige Zeichensätze und Sprachen trainieren. Für die Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch werden fertige Trainingsdaten mitgeliefert.


Seit 2006 wird das Programm als Grundlage von [[Google Books]] weiterentwickelt. Es dient als Texterkennungsmodul in [[Ocropus]], das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich.
Seit 2006 wird das Programm als Grundlage von [[Google Books]] weiterentwickelt. Es dient als Texterkennungsmodul in [[Ocropus]], das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich.
Zeile 7: Zeile 7:
=== Ubuntu 8.04 Hardy Heron ===
=== Ubuntu 8.04 Hardy Heron ===


Unter Ubuntu 8.04 kann tesseract 2.00 automatisch installiert werden.
tesseract 2.00 kann mittels [[apt-get]] automatisch installiert werden.


  $ <b>sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra</b>
  $ <b>sudo apt-get install tesseract-ocr \
    tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra</b>


Die tesseract-Dateien sind danach unter "/usr/share/tesseract-ocr/tessdata" installiert.
Die tesseract-Dateien sind danach unter "/usr/share/tesseract-ocr/tessdata" installiert.


Besser allerdings ist es, tesseract von der offiziellen Homepage herunterzuladen (dort steht Version 2.03 bereit) und selber zu kompilieren.
tesseract 2.03 kann direkt von der offiziellen Homepage heruntergeladen werden - allerdings lässt es sich weder mit [[checkinstall]] noch mit "make install" installieren:


  $ <b><nowiki>wget http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz</nowiki></b>
  $ <b><nowiki>wget http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz</nowiki></b>
Zeile 21: Zeile 22:
  $ <b>make</b>
  $ <b>make</b>
  $ <b>sudo checkinstall</b>
  $ <b>sudo checkinstall</b>
$ <b>sudo make install</b>
...
Making install in java
make[1]: Betrete Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java'
make[1]: *** Keine Regel, um »install« zu erstellen.  Schluss.
make[1]: Verlasse Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java'
make: *** [install-recursive] Fehler 1


== Verwendung ==
== Verwendung ==
Zeile 30: Zeile 38:
== Weblinks ==
== Weblinks ==


{{Weblinks|{{url|US|Google|eng|http://code.google.com/p/tesseract-ocr/|tesseract-ocr|Offizielle Homepage|sublink=<br>
{{Weblinks}}
{{url|US|Google|eng|http://code.google.com/p/tesseract-ocr/|tesseract-ocr|Offizielle Homepage|sublink=<br>
* [http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract Training tesseract : how to use the tools provided to train tesseract for a new language]}}
* [http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract Training tesseract : how to use the tools provided to train tesseract for a new language]}}
{{url_enwikipedia|Tesseract_(software)|Tesseract (software)}}
{{url_enwikipedia|Tesseract_(software)|Tesseract (software)}}
{{url|US|Sourceforge|eng|http://sourceforge.net/forum/forum.php?thread_id{{=}}1568751&forum_id{{=}}534361|Tesseract wrapper script for almost any image|Skript}}
{{url|US|Sourceforge|eng|http://sourceforge.net/forum/forum.php?thread_id{{=}}1568751&forum_id{{=}}534361|Tesseract wrapper script for almost any image|Skript}}
}}
{{Fuss}}




{{cat|Shell-Befehl}}
{{cat|Shell-Befehl}}
{{cat|Texterkennung}}
{{cat|Texterkennung}}

Aktuelle Version vom 7. Februar 2010, 14:36 Uhr

Der Shell-Befehl tesseract ist ein Texterkennungs-Programm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche. Auf Zeichenebene bietet es jedoch sehr gute Ergebnisse und lässt sich grundsätzlich für beliebige Zeichensätze und Sprachen trainieren. Für die Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch werden fertige Trainingsdaten mitgeliefert.

Seit 2006 wird das Programm als Grundlage von Google Books weiterentwickelt. Es dient als Texterkennungsmodul in Ocropus, das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet. Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten vorhanden. Teilweise ist auch die Texterkennung von Texten in Frakturschriften möglich.

Installation

Ubuntu 8.04 Hardy Heron

tesseract 2.00 kann mittels apt-get automatisch installiert werden.

$ sudo apt-get install tesseract-ocr \
    tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra

Die tesseract-Dateien sind danach unter "/usr/share/tesseract-ocr/tessdata" installiert.

tesseract 2.03 kann direkt von der offiziellen Homepage heruntergeladen werden - allerdings lässt es sich weder mit checkinstall noch mit "make install" installieren:

$ wget http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz
$ tar xzf tesseract-2.03.tar.gz
$ cd tesseract-2.03
$ ./configure
$ make
$ sudo checkinstall
$ sudo make install
...
Making install in java
make[1]: Betrete Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java'
make[1]: *** Keine Regel, um »install« zu erstellen.  Schluss.
make[1]: Verlasse Verzeichnis '/home/mik/backup/software/linux/Ubuntu8.04/tesseract-2.03/java'
make: *** [install-recursive] Fehler 1

Verwendung

Zeichenerkennung in der Datei "file.tif". Das Ergebnis wird in die Datei "result.txt" geschrieben.

$ tesseract file.tif result

Weblinks

Herausgeber Sprache Webseitentitel Anmerkungen
Google eng tesseract-ocrwbm
Offizielle Homepage
Wikipedia eng Tesseract (software)wbm Enzyklopädischer Artikel
Sourceforge eng Tesseract wrapper script for almost any imagewbm Skript