2012-09-26 24 views
5

He experimentado con pyPdf y pdfMiner para extraer texto de archivos pdf. Tengo algunos archivos PDF hostiles que solo PDFMiner puede extraer con éxito. Estoy usando el código here para extraer texto para todo el archivo. Sin embargo, me gustaría extraer texto por página, como la funcionalidad getPage(i).extractText() en pyPdf. ¿Alguien sabe cómo extraer texto por página usando pdfMiner?Extraiga el texto por página con Python PDFMiner?

Respuesta

6
for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page 

Hay un artículo bastante bueno here.

+0

¿Podría alguien explicar esto? Tengo problemas importantes para entender pdfminer ya que no hay documentación. – Jazcash

+0

para qué versión de 'pdfminer' funciona este código? –

+0

Esto parece estar roto con el * pdfminer * actual (el momento de escribir de 20140328). –

Cuestiones relacionadas