Neues vom OCR Feeder
...es gibt Neuigkeiten vom schönen Programm OCRFeeder, das ich hier schon einmal ausprobiert hatte. Damals ging es insbesondere darum, wie man in OCRFeeder Tesseract als OCR-Engine benutzen kann und ich kam um ein bisschen Gebastel nicht drum rum.
Renard Voß hat mich nun netterweise in den Kommentaren des alten Artikels darauf aufmerksam gemacht, daß Joaquim Rocha noch an dem Programm arbeitet: Inzwischen gibt es ein git-Repository und neuere Versionen des Programms arbeiten nun auch ohne viel Aufwand mit Tesseract zusammen, worauf Rocha auch in seinem Blog hinweist - hatte ich bislang leider übersehen. Den Hilfswrapper von damals kann man nun also ruhig in die Tonne schieben - es genügt nun, für Tesseract eine funktionierende Konfigurationsdatei zu erstellen (geht auch per GUI).
Anbei ein Screenshot von OCRFeeder Studio mit dem OCR-Ergebnis von Tesseract.
Update: Inzwischen gibt es in den Repos auch eine deutsche Übersetzung. Außerdem lohnt es sich, hier auch die Kommentare zu lesen (Installation/OCR dt. Texte/Sonderzeichen).
4 Comments:
Danke für die Würdigung!
Renard
P.S.: Aus Joaquims Blog-Seite geht mittlerweile ganz gut hervor, wie man mit OCRfeeder & tesseract am besten deutsche Texte erkennt. Funktioniert wirklich gut!
Momentan besteht nur noch ein Problem mit Umlauten, aber das wird schon noch ;)
Dieser Kommentar wurde vom Autor entfernt.
Dieser Kommentar wurde vom Autor entfernt.
Achja, ich sollte erst lesen und dann erst kommentieren...
Danke für den Hinweis auf die py-setup-tools (ich hab das ding ohne setup 'installiert') und die Nachfragen bzgl. Sonderzeichen.
Offensichtlich haben wir uns gleichzeitig hingesetzt und an einer Übersetzung gestrickt :)
Schönes Projekt woran der Rocha da bastelt, werd ich weiter im Auge behalten.
Kommentar veröffentlichen
<< Home