pQuery es un puerto pragmático del marco de JavaScript jQuery para Perl que se puede utilizar para el raspado de la pantalla.¿Cómo hago que pQuery funcione con HTML ligeramente deformado?
pQuery bastante sensible al HTML mal formado. Consideremos el siguiente ejemplo:
use pQuery;
my $html_malformed = "<html><head><title>foo</title></head><body>bar</body></html>>";
my $page = pQuery($html_malformed);
my $title = $page->find("title");
print "The title is: ", $title->html, "\n";
pQuery no va a encontrar la etiqueta del título en el ejemplo anterior, debido a la doble ">>
" en el código HTML con formato incorrecto.
Para hacer que mis aplicaciones basadas en pQuery sean más tolerantes al HTML mal formado, necesito preprocesar el HTML limpiándolo antes de pasarlo a pQuery.
Comenzando con el fragmento de código dado anteriormente, ¿cuál es la forma más robusta de puro perl para limpiar el HTML para que lo analice: capaz por pQuery?
Lo siento, pero necesito una solución de puro perl. Ahora se ha aclarado en la pregunta. Gracias por la respuesta de todos modos! :-) – knorv