tengo una imagen de código de imagen que se ve así:Extracción del ruido de fondo de una imagen de código de imagen de replicando el filtro de picar de TesserCap
Usando una utilidad llamada TesserCap de McAfee, pude aplicar un " cortando "filtro a la imagen. (Antes de ejecutarlo, me aseguré de que solo hubiera dos colores en la imagen, blanco y negro.) Me impresionaron mucho los resultados de usar ese filtro con un valor de 2 en el cuadro de texto. Se retira con precisión la mayor parte del ruido, pero mantuvo el texto principal, lo que resulta en esto:
quería implementar algo como esto en uno de mis propios guiones, así que traté de averiguar qué biblioteca de procesamiento de imágenes TesserCap usado. No pude encontrar nada; resulta que usa su propio código para procesar la imagen. Luego leo this whitepaper que explica exactamente cómo funciona el programa. Me dio la siguiente descripción de lo que hace este filtro de picar:
Si el número contiguo de píxeles para valores de escala de grises dados son menos que el número proporcionado en el cuadro numérico, el filtro de cortar sustituye a estas secuencias con 0 (negro) o 255 (blanco) según la elección del usuario. El CAPTCHA se analiza en direcciones horizontales y verticales y se realizan los cambios correspondientes.
No estoy seguro de entender lo que está haciendo. Mi secuencia de comandos está en Python, así que traté de usar PIL para manipular los píxeles, como esa frase descrita. Suena un poco simple, pero falló, probablemente porque yo no sabía muy bien qué es exactamente el filtro estaba haciendo:
(Esto se hace de un código de imagen ligeramente diferente que utiliza un patrón circular.)
También intenté ver si se podía hacer fácilmente con ImageMagick's convert.exe. Su opción -chop es algo completamente diferente. Usar -median junto con algunos comandos de morfología ayudó a reducir parte del ruido, pero aparecieron puntos desagradables y las letras se volvieron muy distorsionadas. No era tan simple como hacer el filtro de corte con TesserCap.
Entonces, mi pregunta es la siguiente: ¿cómo implemento el filtro de corte de TesserCap en Python, ya sea usando PIL o ImageMagick? Ese filtro de corte funciona mucho mejor que cualquiera de las alternativas que he probado, pero parece que no puedo replicarlo. He estado trabajando en esto durante horas y todavía no he averiguado nada.
http://dsp.stackexchange.com/ – scord
como nota al margen, se puede tratar de usar las estadísticas. Outliers (2 sd) o extremos atípicos (3.5 sd) me permitieron quitar captcha images (para propósitos legales) sin perder calidad de imagen –