2010-04-18 30 views

Respuesta

12

SeleniumRC con selenium.py es una alternativa (y una de las pocas opciones viables si las páginas que necesita para raspar tienen un papel importante, "estructural" para las operaciones de Javascript, esp. Los AJAX-y, desde Mechanize no ejecuta el Javascript en las páginas que está raspando).

7

Para raspado y manejo de formularios puede usar lxml.html (aunque no automatiza la extracción ni las cookies).

scrapy es una biblioteca específica para raspar.

3

He usado twill para muchas de mis necesidades de prueba. Funciona como un lenguaje independiente para "navegación web" o como una biblioteca de Python. De hecho, utiliza Mechanize bajo el capó, por lo que no estoy seguro si satisfará tus necesidades: ¿tienes problemas intrínsecos a Mechanize o te beneficiarías de una capa de alto nivel?

3

he tenido éxito con Splinter, una solución integrada en la parte superior de selenio - mientras que proporciona la API más Pythonic.

Cuestiones relacionadas