Estoy usando Apache PDFBox para leer un documento PDF que tiene una jerarquía definida por marcadores. La jerarquía está en forma de árbol con contenido solo en el nivel de la hoja.Extraer texto entre dos marcadores usando Apache PdfBox
Extraer el texto entre dos marcadores nivel de hoja usando el siguiente código:
Stripper.setStartBookmark(),
Stripper.setEndBookmark(),
Stripper.writeText()),
devuelve texto en la página entera en su lugar. En resumen, mi problema es similar al mencionado en this thread.
¿Hay alguna forma de extraer el contenido entre dos marcadores?
Si es así, ¿cuál debería ser el cambio en mi código?
@Shiram -I tiene misma pregunta. por favor, envíe la respuesta si ya lo ha descubierto – Kasun
¿Encontró una solución? Si no, tiene un ejemplo del marcador (por ejemplo, en formato XML). – maffo