Cuando intento extraer texto de mis archivos PDF, parece insertar espacios en blanco entre varias palabras al azar.PDFBox agregando espacios en blanco dentro de las palabras
estoy usando PDFBox-app-1.6.0.jar (última versión) el siguiente archivo de ejemplo en la sección de Descargas de esta página: http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
He intentado con varios otros archivos PDF y parece estar haciendo lo mismo en varias páginas.
que hacer lo siguiente:
java-jar PDFBox-app-1.6.0.jar ExtractText force -console ~/Desktop/ped formación PDF.pdf
en el archivo descargado y usted ver espacios en el seguimiento insertado incorrectamente en el resultado en la consola: "• Si ildren ch son capaces de caminar a Schoo l con seguridad que esto podría reducir la congestión "
"• Desarrolla buena hab su para la vida futura."
"www.sheff ield.gov.uk"
"Think Ahead !, ich WH se basa en la"
, etc, etc
Como se puede ver varias de las palabras anteriores tienen espacios entre ellos sin ninguna razón que pueda comprender.
Estoy en Ubuntu y ejecutando Sun's JDK 1.6.
He intentado esto en varios archivos PDF diferentes y he intentado buscar soluciones en foros, había errores similares pero todos parecían haberse resuelto.
Cualquier ayuda o si alguien más tiene el mismo problema, por favor comente. Esto está causando un gran problema al indexar el contenido correctamente para la búsqueda.
Gracias Jukka, a veces es un alivio comprender por qué algo no está funcionando como se esperaba y también que no estoy haciendo nada que esté causando el problema. –
Aquí hay un ejemplo de cómo crear dicho diccionario de términos si está usando Lucene. [Cómo extraer un vector de término de documento en Lucene] (http://stackoverflow.com/a/8901758/165085) –