No soy tan nuevo en lenguajes de programación (python) pero no tengo ni idea de dónde comenzaré para hacer un bot o un scraper usando python ?. ¿Debería estudiar en la programación de cgi? o el raspador se ejecuta simplemente usando un script de Python? ¿Debo construir un servidor para eso? No tengo idea de esto ... gracias por la ayuda¿Dónde comenzaré haciendo un raspador o un bot usando python?
Respuesta
Aquí hay algunos enlaces para comenzar.
pantalla raspado implica una gran cantidad de expresiones regulares para obtener los datos exactos que desea. También desea saber qué tipo de datos desea analizar y cómo desea almacenarlos.
Para obtener las páginas, tendrá que utilizar las bibliotecas como urllib (o urllib2) y las expresiones regulares (re) o un buen guión para usar es BeautifulSoup a hacer su trabajo sucio (http://www.crummy.com/software/BeautifulSoup/)
Si Si quieres construir un bot puro que haga lo que hacen los motores de búsqueda, también tienes que construir un robot lo suficientemente inteligente como para saber que no sigues haciendo ping al mismo dominio continuamente (resulta en un ataque de DOS).
Si intenta acceder a sitios web que hacen un uso intensivo de JavaScript, es posible que, en general, encuentre Selenium más fácil.
Selenium es un servidor que controla los navegadores web reales en su servidor, y una biblioteca cliente (que incluye un puerto Python) que le permite controlar los navegadores e inspeccionar las páginas en ellos.
Definitivamente hay más gastos generales para configurar (y descubrir) la biblioteca del servidor y del cliente (y para asegurarse de tener un navegador en funcionamiento en su sistema), pero si el sitio web hace muchas cosas en JavaScript, su código de raspado real podría ser mucho menos peludo.
- 1. ¿Por dónde empiezo con un bot web?
- 2. Creando un bot de IM
- 3. Haciendo un botón personalizado usando UIView o reemplazando UIButton?
- 4. ¿Cómo programo un simple bot de IRC en python?
- 5. Construyendo un compilador o intérprete usando Python
- 6. IRC Bot Python: La mejor manera
- 7. Creando un bot de IRC en Java
- 8. Desarrollo de un rastreador y un raspador para un motor de búsqueda vertical
- 9. Cómo crear un bot IM con C#
- 10. cómo construir un bot para un juego flash en línea?
- 11. Haciendo un UIImageView gris
- 12. Escribir un sencillo "Rock Paper Scissors" bot juego
- 13. Haciendo un Theme.Wallpaper semitransparente
- 14. Cómo confirmar haciendo clic en un enlace usando jQuery
- 15. Haciendo el JTextArea o JEditorPane en un JFrame desplazable
- 16. NSDateFormatter, ¿estoy haciendo algo mal o es esto un error?
- 17. Haciendo un componente redistribuible o una biblioteca para Android
- 18. Cómo emitir un 'hallazgo' o 'dónde' que genera un RecordNotFound
- 19. python excel haciendo reportes
- 20. Programmatic Bot Detection
- 21. ¿Dónde almacena el registrador de raíz Python un registro?
- 22. cómo vaciar un archivo usando Python
- 23. PHP Detectando el comportamiento similar a un bot
- 24. Bot para Unreal Tournament
- 25. Haciendo eco de un retroceso
- 26. Usar cadenas de Markov (o algo similar) para producir un IRC-bot
- 27. Extraña excepción en Rails 3 causada por google bot (o algo que pretende ser un googlebot)
- 28. ActionView :: Error de MissingTemplate, ¿solo cuando lo visita un Bot?
- 29. Haciendo un parámetro de plantilla un amigo?
- 30. ¿Cómo puedo programar un chat simple bot AI?
Votación para cerrar como demasiado amplia. –
Bueno, supongo que sí, solo porque el OP nunca aceptó una respuesta y no ha estado presente desde entonces, por lo que ha estado funcionando como "abierto" desde entonces. –