Neues vom OCR Feeder

Renard Voß hat mich nun netterweise in den Kommentaren des alten Artikels darauf aufmerksam gemacht, daß Joaquim Rocha noch an dem Programm arbeitet: Inzwischen gibt es ein git-Repository und neuere Versionen des Programms arbeiten nun auch ohne viel Aufwand mit Tesseract zusammen, worauf Rocha auch in seinem Blog hinweist - hatte ich bislang leider übersehen. Den Hilfswrapper von damals kann man nun also ruhig in die Tonne schieben - es genügt nun, für Tesseract eine funktionierende Konfigurationsdatei zu erstellen (geht auch per GUI).
Anbei ein Screenshot von OCRFeeder Studio mit dem OCR-Ergebnis von Tesseract.
Update: Inzwischen gibt es in den Repos auch eine deutsche Übersetzung. Außerdem lohnt es sich, hier auch die Kommentare zu lesen (Installation/OCR dt. Texte/Sonderzeichen).
4 Comments:
Danke für die Würdigung!
Renard
P.S.: Aus Joaquims Blog-Seite geht mittlerweile ganz gut hervor, wie man mit OCRfeeder & tesseract am besten deutsche Texte erkennt. Funktioniert wirklich gut!
Momentan besteht nur noch ein Problem mit Umlauten, aber das wird schon noch ;)
Dieser Kommentar wurde vom Autor entfernt.
Dieser Kommentar wurde vom Autor entfernt.
Achja, ich sollte erst lesen und dann erst kommentieren...
Danke für den Hinweis auf die py-setup-tools (ich hab das ding ohne setup 'installiert') und die Nachfragen bzgl. Sonderzeichen.
Offensichtlich haben wir uns gleichzeitig hingesetzt und an einer Übersetzung gestrickt :)
Schönes Projekt woran der Rocha da bastelt, werd ich weiter im Auge behalten.
Kommentar veröffentlichen
<< Home