Extraiga el texto por página con Python PDFMiner?

He experimentado con pyPdf y pdfMiner para extraer texto de archivos pdf. Tengo algunos archivos PDF hostiles que solo PDFMiner puede extraer con éxito. Estoy usando el código here para extraer texto para todo el archivo. Sin embargo, me gustaría extraer texto por página, como la funcionalidad getPage(i).extractText() en pyPdf. ¿Alguien sabe cómo extraer texto por página usando pdfMiner?Extraiga el texto por página con Python PDFMiner?

Fuente

2012-09-26 ezbentley

for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page

Hay un artículo bastante bueno here.

Fuente

2012-09-26 18:19:34 John

¿Podría alguien explicar esto? Tengo problemas importantes para entender pdfminer ya que no hay documentación. – Jazcash

para qué versión de 'pdfminer' funciona este código? –

Esto parece estar roto con el * pdfminer * actual (el momento de escribir de 20140328). –

Extraiga el texto por página con Python PDFMiner?

Respuesta

Cuestiones relacionadas