08.09.2006, 00:00 Uhr

Freie OCR-Engine von Google

Tesseract erkennt einfache Texte, hat aber Probleme mit Spaltenlayouts sowie mit Graustufen- und Farbvorlagen.
Der Suchmaschinenanbieter Google hat eine Software zur Schrifterkennung frei zur Verfügung gestellt. Die Engine, die ursprünglich von Hewlett Packard entwickelt wurde, heißt Tesseract. Mitte der 90-er Jahre verlor HP anscheinend das Interesse an der Software. Zusammen mit dem Information Science Research Institute der Universität von Nevada in las Vegas hat Google Tesseract wiederbelebt und auf Sourceforge verfügbar gemacht. Die Engine unterstützt derzeit ausschließlich die englische Sprache und besitzt auch keine besonderen Fähigkeiten, ein Layout zu erkennen. Entsprechend schwer tut sich Tesseract mit mehrspaltigen Texten. Auch Graustufen- und Farbvorlagen bereiten ihr Probleme. Von diesesn Einschränkungen abgesehen soll die OCR-Software jedoch recht gute Dienste tun.

Info:
http://sourceforge.net/projects/tesseract-ocr/



Das könnte Sie auch interessieren