2010-06-19 12 views
8

No soy tan nuevo en lenguajes de programación (python) pero no tengo ni idea de dónde comenzaré para hacer un bot o un scraper usando python ?. ¿Debería estudiar en la programación de cgi? o el raspador se ejecuta simplemente usando un script de Python? ¿Debo construir un servidor para eso? No tengo idea de esto ... gracias por la ayuda¿Dónde comenzaré haciendo un raspador o un bot usando python?

+0

Votación para cerrar como demasiado amplia. –

+0

Bueno, supongo que sí, solo porque el OP nunca aceptó una respuesta y no ha estado presente desde entonces, por lo que ha estado funcionando como "abierto" desde entonces. –

Respuesta

1

pantalla raspado implica una gran cantidad de expresiones regulares para obtener los datos exactos que desea. También desea saber qué tipo de datos desea analizar y cómo desea almacenarlos.

Para obtener las páginas, tendrá que utilizar las bibliotecas como urllib (o urllib2) y las expresiones regulares (re) o un buen guión para usar es BeautifulSoup a hacer su trabajo sucio (http://www.crummy.com/software/BeautifulSoup/)

Si Si quieres construir un bot puro que haga lo que hacen los motores de búsqueda, también tienes que construir un robot lo suficientemente inteligente como para saber que no sigues haciendo ping al mismo dominio continuamente (resulta en un ataque de DOS).

2

Si intenta acceder a sitios web que hacen un uso intensivo de JavaScript, es posible que, en general, encuentre Selenium más fácil.

Selenium es un servidor que controla los navegadores web reales en su servidor, y una biblioteca cliente (que incluye un puerto Python) que le permite controlar los navegadores e inspeccionar las páginas en ellos.

Definitivamente hay más gastos generales para configurar (y descubrir) la biblioteca del servidor y del cliente (y para asegurarse de tener un navegador en funcionamiento en su sistema), pero si el sitio web hace muchas cosas en JavaScript, su código de raspado real podría ser mucho menos peludo.

Cuestiones relacionadas