2012-04-20 18 views
5

Estoy tratando de procesar un montón de tarjetas de respuesta escaneadas que tienen manuscrita información de contacto sobre ellas (es decir, nombre, dirección, teléfono, correo electrónico, etc.).¿Existe una biblioteca/programa de reconocimiento de escritura a mano viable?

Tengo curiosidad por saber si hay una biblioteca de código abierto viable o una pieza de software para hacerlo (idealmente, Java o R). Al mirar a su alrededor mucha de la información es de 2009 o temprano y no es muy alentador.

El idioma es el inglés.

¿Alguna sugerencia?

EDITAR: He consultado la página de OCRopus pero la última versión es de mayo de 2009. ¿Alguien tiene alguna experiencia con esto o hay una versión más reciente?

+0

Cualquier idioma en particular? –

+1

Realmente no entiendo el etiquetado en esta pregunta ... – talnicolas

+0

@DanW: Java o R sería ideal. La escritura está en inglés. – screechOwl

Respuesta

2

Para empezar, por lo que sé, no hay SDK Java OCR nativos de código abierto. Hay API Java que envuelven llamadas para interfaces nativas, tesjeract (http://code.google.com/p/tesjeract/) o Tess4J (http://tess4j.sf.net/).

A continuación, debe especificar si busca texto manuscrito o impreso a mano. Si necesita reconocimiento de texto a mano, no creo que pueda resolver sus tareas debido a las razones expuestas en otras respuestas.

Sin embargo, si necesita ICR (que significa reconocimiento inteligente de caracteres) para texto impreso a mano (letras bastante claras utilizadas en encuestas, formularios, etc.) podría haber una solución. Si bien creo que tesseract (a pesar de ser considerado el mejor entre los motores de código abierto) no hará el trabajo por usted aquí, puede buscar SDK más precisos.

Tal vez esta pregunta ayudaría: Handwritten scanned Doc to .txt File?

3

Es posible que desee mirar http://code.google.com/p/ocropus/, que es un sistema de OCR de fuente abierta.

Pero, parece estar escrito en C++ y python.

* ACTUALIZACIÓN: *

Dado que uno de los proyectos de investigación es un analizador manuscrita espero que pueda ayudar.

El motor OCRopus se basa en dos proyectos de investigación: un reconocedor de escritura a mano de alto rendimiento desarrollado en la década de los 90 y desplegados por la oficina de censo de Estados Unidos, y nuevos métodos de análisis de alto rendimiento diseño .

Y si nos fijamos en http://code.google.com/p/ocropus/source/browse/ los archivos de origen se han actualizado desde 10/2011 (uno de los tres fue de 3/2012), por lo que parece ser actualmente en desarrollo todavía.

+0

OCRopus NO es para el reconocimiento de escritura a mano – Tomato

3

No conozco ninguna biblioteca abierta de reconocimiento de escritura a mano, independientemente de que ya esté en el espacio de OCR. Normalmente, la escritura a mano es más difícil que la OCR, y diría que no existe una solución comercial ni siquiera decente. Todo lo que existe tiene sus propios problemas y solo puede funcionar en aplicaciones muy limitadas como cuando el diccionario es limitado, el texto está bien escrito, etc. Si aún está interesado, le recomiendo consultar la tecnología de la empresa francesa I2IA

Cuestiones relacionadas