2008-08-05 25 views
16

me gustaría hacer una tarea programada nocturno que va a buscar mi página de stackoverflow y Diffs desde la página del día anterior, por lo que puedo ver un resumen de cambios de mis preguntas, respuestas, clasificación, etc.Cómo rizar o wget una página web?

Por desgracia, no pude obtener el conjunto correcto de cookies, etc., para que esto funcione. ¿Algunas ideas?

Además, cuando la versión beta haya finalizado, ¿estará accesible mi página de estado sin iniciar sesión?

Respuesta

9

Su página de estado ya está disponible sin iniciar sesión (haga clic en logout y pruébelo). Cuando la cookie beta está desactivada, no habrá nada entre usted y su página de estado.

Para wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html 
3

Buena idea :)

supongo que usted ha utilizado de wget

--load-cookies (filename) 

podría ayudar un poco, pero puede ser que sea más fácil de usar algo como Mechanize (en Perl o Python) para imitar un navegador más plenamente para obtener una buena araña.

2

no podía encontrar la manera de obtener las cookies para funcionar bien, pero yo era capaz de llegar a mi página de estado en mi navegador mientras yo estaba conectado a cabo, por lo que supongamos que esto funcionará una vez que stackoverflow se haga público.

Esta es una idea interesante, pero ¿no recogerá los diffs del código html subyacente? ¿Tiene una estrategia para evitar terminar con un diff del html y no con el contenido real?

+0

Si tuviera el tiempo, me gustaría hacer una [sopa de Hermosa] (http://www.crummy.com/software/BeautifulSoup/) (o algo mejor?) script para raspar los datos muy bien, pero por ahora solo estoy recogiendo las líneas de texto que necesito. –

2

Y aquí es lo que funciona ...

curl -s --cookie soba=. http://stackoverflow.com/users