2012-03-06 22 views
6

Estoy usando Apache PDFBox para leer un documento PDF que tiene una jerarquía definida por marcadores. La jerarquía está en forma de árbol con contenido solo en el nivel de la hoja.Extraer texto entre dos marcadores usando Apache PdfBox

Extraer el texto entre dos marcadores nivel de hoja usando el siguiente código:

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()), 

devuelve texto en la página entera en su lugar. En resumen, mi problema es similar al mencionado en this thread.

¿Hay alguna forma de extraer el contenido entre dos marcadores?

Si es así, ¿cuál debería ser el cambio en mi código?

+0

@Shiram -I tiene misma pregunta. por favor, envíe la respuesta si ya lo ha descubierto – Kasun

+0

¿Encontró una solución? Si no, tiene un ejemplo del marcador (por ejemplo, en formato XML). – maffo

Respuesta

0

Supongo que su marcador no contiene los datos correctos.

suena como el marcador que está utilizando solamente está apuntando a la página donde su contenido comienza, en lugar de una ubicación en la página.

Aquí es un ejemplo de un marcador que contiene los datos de localización:

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> 
Title Name 
</Title> 
+0

En PDFBox, los marcadores se resuelven en PDPageXYZDestination, como resultado de acciones específicas de GoTo a partir de los marcadores. Por lo tanto, apuntan a una posición absoluta en la página, que se verifica en mi visor de PDF, donde al hacer clic en un marcador se desplaza directamente a la sección. – nickb

Cuestiones relacionadas