Estoy escribiendo una aplicación para escanear números de una imagen.Tesseract confunde dos números
Los números están utilizando la fuente OCR-B y también pueden contener +
y >
caracteres.
Ésta es mi imagen de la fuente:
Las exploraciones mediante Tesseract no eran muy buenos, aunque limitando el juego de caracteres que los personajes mencionados. Como no encontré ningún archivo de entrenamiento OCRB para Tesseract, decidí entrenarlo yo mismo.
Creé this training image e hice un archivo de caja de él. El archivo de caja es correcto, todas las letras coinciden correctamente.
Luego hice todos los pasos described here para crear los otros archivos necesarios.
Usando este conjunto de datos testados de OCR-B recientemente entrenado, obtengo resultados bastante buenos en la imagen de origen, con un pequeño error: Todos 1
s se confunden con 8
sy viceversa. El comando utilizado para procesar la imagen era
$ tesseract esr2c.tif ocrb-esr2c -l ocrb
y la salida de la imagen de origen era
0800000001456> 8 00000195731208 8 01050008 023+ 08 0301226> 20
Si se cambia todo 1
s y 8
s y compararlo con la imagen de origen, la salida sería correcta (a excepción de las dos últimas letras que puedo ignorar).
¿Cómo pudo suceder esto? ¿Cometí algún error en el proceso de entrenamiento? ¿Cómo puedo arreglarlo?
no hay implicancia de seguridad al publicar esos datos aquí? –
@andrew no realmente. solo una factura vieja, inválida sin información personal en la identificación de referencia. –
@DaniloBargen: Si es posible, ¿puede compartir los datos de entrenamiento para la fuente OCRB? –