2008-11-09 29 views
20

¿Cómo puedo convertir archivos PDF a HTML con Python?Conversión de PDF a HTML con Python

Estaba pensando algo solo en las líneas de lo que Google hace (o parece hacer) para indexar archivos PDF.

Mi objetivo final es configurar Apache para mostrar el HTML de los archivos PDF, por lo que cualquier cosa que me lleve en esa dirección también será apreciada.

Respuesta

5

El paquete poppler proporciona una utilidad pdf2html que usted podría ser capaz de usar. También hay un Python binding para libpoppler.

+0

El enlace de python es principalmente para renderizar PDF en un widget GTK/ui, por lo que no estoy seguro de que sea útil aquí. –

+0

No lo he usado, pero sí expone poppler_page_get_text, que podría ser útil para el OP. –

+0

Correcto, pero parece un gran desperdicio de enlaces GTK/Glib si eso es todo lo que O.P. desea, especialmente porque hay otras formas más sencillas que no dependen de un juego de herramientas de interfaz de usuario (por ejemplo, pdf2html que mencione). Debo decir que generalmente me gustan las encuadernaciones y que fui el autor original. Quizás no en este caso sin embargo. –