30 April 2008

OCRopus

...letzten Oktober hatte ich mich ja nochmal an einer line segmentation handschriftlicher Texte versucht und wollte mir hierzu auch noch OCRopus ansehen, wenn es dann fertig ist (bzw. ich es auf meinem Rechner zum laufen bekomme). Heute war es dann soweit: Nachdem sich OCRopus hier vorgestern noch nicht bauen ließ, wurde praktisch über Nacht der Bug gefixt und die derzeitige Revision 800 (http://ocropus.googlecode.com/svn/trunk/) funktioniert bestens mit Tesseract in der Revision 169 ( http://tesseract-ocr.googlecode.com/svn/trunk/). Nur kurz, wie man beides (z.B.) zieht und installiert, erst Tesseract:
svn co http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr
Und in tesseract-ocr dann
./configure
make
make install

Prüfen, ob Tesseract funktioniert:
tesseract eurotext.tif test
test sollte nun den Text enthalten, den man in dem Bild eurotext.tif sieht. Nun noch OCRopus ziehen und bauen:
svn co http://ocropus.googlecode.com/svn/trunk/ ocropus
Und in ocropus dann
./configure
jam

Wenn alles ordentlich durchlief dann z.B. mit
ocrocmd/ocrocmd data/pages/alice_1.png
testen, ob die Zeichenerkennung auf dem Testbild (Alice im Wunderland) funktioniert.
Bestenfalls erhält man html mit der segmentation des Bildes und dem Text. Ich habe das Ganze mal so, wie es ist, auf ein Stück aus der Trierer HS30 losgelassen. Das Ergebnis sieht man auf dem Bild (die unterschiedlichen Farben haben keine Bedeutung). Mal sehen, was man noch alles mit dem netten Programm anfangen kann.

Labels: , ,