rastreador web en ruby

¿Cuál es su recomendación de escribir un rastreador web en Ruby? ¿Alguna lib mejor que mecanizar?rastreador web en ruby

2010-11-09 pierrotlefou

Mejor de qué manera? –

Mechanize es una gran herramienta si necesita navegar un sitio web, completar formularios, autenticarse, etc. No es una araña porque tiene que decirle cómo hacer todo. No he probado Anemone, pero sus características se ven bien. Hagas lo que hagas, asegúrate de respetar el archivo 'robots.txt' en el sitio contra el que te estás ejecutando, o acelera tu código. Las arañas maltratadas pueden hacer que te vean prohibidas. Escribir una araña no es tan difícil; He escrito más de lo que puedo recordar. Escribir uno que sea un buen ciudadano y que sea robusto es una tarea más grande, por lo que puede ir con una rueda prefabricada si puede. –

Recomiendo mirar "[¿Cuáles son algunos buenos rastreadores web basados en Ruby?] (Http://stackoverflow.com/questions/4981379/what-are-some-good-ruby-based-web-crawlers/4981595) " –

Si solo desea obtener el contenido de las páginas, la forma más sencilla es utilizar las funciones open-uri. No requieren gemas adicionales. Sólo tienes que require 'open-uri' y ... http://ruby-doc.org/stdlib-2.2.2/libdoc/open-uri/rdoc/OpenURI.html

para analizar el contenido puede utilizar Nokogiri u otras gemas, que también pueden tener, por ejemplo, útiles XPATH -Tecnología. Puede encontrar otras bibliotecas de análisis just here on SO.

Fuente

2010-11-09 10:28:56 Nakilon

Me gustaría probar anemone. Es fácil de usar, especialmente si tiene que escribir un rastreador simple. En mi opinión, está bien diseñado también. Por ejemplo, escribí un script de ruby para buscar errores 404 en mis sitios en muy poco tiempo.

Fuente

2010-11-09 11:31:39 lucapette

Deberías publicar una idea general sobre esto ya que implementaré la misma funcionalidad pronto. Otros probablemente lo usarían también. – cha55son

Es posible que desee comprobar wombat que está construido sobre Mechanize/Nokogiri y proporciona una DSL (como Sinatra, por ejemplo) para analizar páginas. Bastante limpio :)

Fuente

2012-02-15 06:47:05

estoy trabajando en pioneer gem que no es una araña, pero un simple rastreador asincrónica basada en em-synchrony gem

Fuente

2012-03-05 21:35:02 fl00r

Lo mejor que puedo decir es que 'web spider' y 'web crawler' son sinónimos. –

El inglés no es mi idioma nativo, así que puedo estar equivocado, pero me parece que ese crawler es algo más general que spider. Spider es un tipo de material completo: navega recursivamente a través de enlaces. Y pionero es más como un pequeño marco. Podrías escribir tu propia araña con pionero y puedes hacer más;). Pero necesita hacer más trabajo manualmente, para usarlo como pionero, pero es más ágil. – fl00r

Según [Wikipedia] (http://en.wikipedia.org/wiki/Web_crawler): "Otros términos para rastreadores web son hormigas, indexadores automáticos, bots, arañas web, robots web ..." Esto coincide con el [Sinónimos de StackOverflow para rastreador web] (http://stackoverflow.com/tags/web-crawler/synonyms). –

Me acaba de lanzar un llamado recientemente Klepto. Tiene un DSL bastante simple, está construido sobre el capibara y tiene muchas opciones de configuración geniales.

Fuente

2013-04-19 02:09:09

Sería bueno si pudiera expandir su respuesta y explicar más acerca de estas interesantes opciones y por qué su biblioteca es mejor para la tarea. También tenga cuidado al publicar enlaces a sus propios proyectos, la comunidad puede verlo como un poco spam. – Kev

rastreador web en ruby ​​

Respuesta

Cuestiones relacionadas

rastreador web en ruby