Mi objetivo es extraer el texto y las imágenes de un archivo PDF al analizar su estructura. El alcance para analizar la estructura no es exhaustivo; Solo necesito poder identificar encabezados y párrafos.¿Cómo extraer datos de un archivo PDF sin perder de vista su estructura?
me han tratado un poco de cosas diferentes, pero no llegó muy lejos en cualquiera de ellos:
- Convertir PDF a texto. No funciona para mí ya que pierdo imágenes y la estructura del documento.
- Convierte PDF a HTML. Encontré algunas herramientas que me ayudaron con esto, y la mejor hasta ahora es pdftohtml. La herramienta es realmente buena para la presentación, pero no he podido analizar correctamente el HTML.
- Convertir PDF a XML. Lo mismo que arriba.
¿Alguien tiene alguna sugerencia sobre cómo abordar este problema?
qué no has sido capaz de analizar correctamente el html? –
Quiero hacer un seguimiento de los títulos, y una forma de hacerlo fue identificarlos por su estilo. Algunos títulos tienen estilos mixtos, por lo que crea un pequeño problema. – Marcel