¿Cómo se analizan los documentos html que hacen un uso intensivo de javascript? Sé que hay algunas bibliotecas en Python que pueden analizar archivos xml/html estáticos y básicamente estoy buscando un programa o biblioteca (o incluso un complemento de Firefox) que lea html + javascript, ejecute el bit de javascript y emita código html sin javascript por lo que se vería idéntico si se muestra en un navegador.Cómo analizar html que incluye el código de JavaScript
Como un ejemplo sencillo
<a href="javascript:web_link(34, true);">link</a>
debe sustituirse por el valor apropiado el código JavaScript devuelve la función, por ejemplo,
<a href="http://www.example.com">link</a>
Un ejemplo más complejo sería una página de facebook html que está llena de cargas de código de JavaScript.
Probablemente relacionado con How to "execute" HTML+Javascript page with Node.js pero realmente necesito Node.js y JSDOM? También relacionado levemente es Python library for rendering HTML and javascript pero no estoy interesado en rendir solamente la salida html pura.
o bien obtener un tiempo de ejecución de JavaScript y ordenar algo con ella, o analice el código y resuelva qué va a terminar (configuración fuertemente por sitio). –
http://stackoverflow.com/questions/19465510/how-to-parse-a-webpage-that-includes-javascript?rq=1 – gliptak