Estoy tratando de usar pyPdf para extraer e imprimir páginas de un PDF de varias páginas. El problema es que el texto no se extrae de algunas páginas. He puesto un ejemplo de archivo aquí:pyPdf no se puede extraer el texto de algunas páginas en mi PDF
http://www.4shared.com/document/kmJF67E4/forms.html
Si ejecuta el siguiente, las primeras 81 páginas devuelven ningún texto, mientras que el último 11 de extracto de forma adecuada. ¿Alguien puede ayudar?
from pyPdf import PdfFileReader
input = PdfFileReader(file("forms.pdf", "rb"))
for page in input1.pages:
print page.extractText()
Gracias por su ayuda. Probé con pftftotext y se lo pasé, ya que solo resuelve parcialmente el problema. Necesito dividir el pdf en archivos separados sobre la base de los UID que se encuentran en cada página. Sin embargo, las últimas 10 páginas, que pyPdf puede extraer, no tienen etiquetas de página textuales, por lo que el uso de pdftotext, aunque me da todo el texto, no me permite generar una lista de páginas para un UID determinado. . – DrJAKing
Esto no hace un mal trabajo de salida del texto del PDF, pero no preserva el formato de la tabla. – s2t2