Tengo un documento html y quiero extraer las tablas de este documento y devolverlas como matrices. Me estoy imaginando 2 funciones, una que encuentra todas las tablas html en un documento, y una segunda que convierte las tablas html en matrices bidimensionales.Cómo convertir una tabla HTML en una matriz en python
Algo como esto:
htmltables = get_tables(htmldocument)
for table in htmltables:
array=make_array(table)
Hay 2 capturas: 1. Las tablas de números varía día a día 2. Las mesas de todo tipo de formato extra raro, como etiquetas de negrita y de parpadeo, arrojado al azar en.
Gracias!
Hermosa sopa es grande y fácil! También intente usar lxml + xpath si busca más velocidad. –
wow, que funcionó a la perfección. ¡Gracias! – Zach
@user, siempre contento de ayudar.Si es una respuesta tan buena a su pregunta, debe "aceptarla" (haciendo clic en el icono con forma de marca de verificación debajo del número de votos en la parte superior izquierda de la respuesta) - ¡esa es una parte clave de la etiqueta de SO! -) –