OCRopus

svn co http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr
Und in tesseract-ocr dann
./configure
make
make install
Prüfen, ob Tesseract funktioniert:
tesseract eurotext.tif test
test sollte nun den Text enthalten, den man in dem Bild eurotext.tif sieht. Nun noch OCRopus ziehen und bauen:
svn co http://ocropus.googlecode.com/svn/trunk/ ocropus
Und in ocropus dann
./configure
jam
Wenn alles ordentlich durchlief dann z.B. mit
ocrocmd/ocrocmd data/pages/alice_1.png
testen, ob die Zeichenerkennung auf dem Testbild (Alice im Wunderland) funktioniert.
Bestenfalls erhält man html mit der segmentation des Bildes und dem Text. Ich habe das Ganze mal so, wie es ist, auf ein Stück aus der Trierer HS30 losgelassen. Das Ergebnis sieht man auf dem Bild (die unterschiedlichen Farben haben keine Bedeutung). Mal sehen, was man noch alles mit dem netten Programm anfangen kann.
Labels: line segmentation, OCR, Rechnerbastelei
0 Comments:
Kommentar veröffentlichen
<< Home