Necesito comparar una gran cantidad de archivos PDF para su contenido óptico. Debido a que los archivos PDF se crearon en diferentes plataformas y con diferentes versiones del software, existen diferencias estructurales. Por ejemplo:¿Herramienta para comparar grandes cantidades de archivos PDF?
- la CHUNKING de texto puede ser diferente
- el orden de escritura puede ser diferente
- la posición puede ser difieren poco de píxeles
Se debe comparar el contenido como un pueblo humanos y no la estructura interna. Quiero probar las regresiones entre las diferentes versiones del generador de PDF que utilizamos.
Una respuesta parcial sería usar [pdftotext] (http://en.wikipedia.org/wiki/Pftftxt) y comparar el texto contenido. – Sklivvz
Pero esto ignorará todas las informaciones no textuales como líneas, cuadros, imágenes, cuadros, etc. También creo que no muestra las posiciones ópticas del texto sino la posición estructural. – Horcrux7
Estoy de acuerdo, no es un criterio suficiente. Por otro lado, es un criterio necesario, por lo tanto, es adecuado como una prueba unitaria. – Sklivvz