2010-11-09 13 views
11

¿Cuál es su recomendación de escribir un rastreador web en Ruby? ¿Alguna lib mejor que mecanizar?rastreador web en ruby ​​

+2

Mejor de qué manera? –

+0

Mechanize es una gran herramienta si necesita navegar un sitio web, completar formularios, autenticarse, etc. No es una araña porque tiene que decirle cómo hacer todo. No he probado Anemone, pero sus características se ven bien. Hagas lo que hagas, asegúrate de respetar el archivo 'robots.txt' en el sitio contra el que te estás ejecutando, o acelera tu código. Las arañas maltratadas pueden hacer que te vean prohibidas. Escribir una araña no es tan difícil; He escrito más de lo que puedo recordar. Escribir uno que sea un buen ciudadano y que sea robusto es una tarea más grande, por lo que puede ir con una rueda prefabricada si puede. –

+0

Recomiendo mirar "[¿Cuáles son algunos buenos rastreadores web basados ​​en Ruby?] (Http://stackoverflow.com/questions/4981379/what-are-some-good-ruby-based-web-crawlers/4981595) " –

Respuesta

25

Me gustaría probar anemone. Es fácil de usar, especialmente si tiene que escribir un rastreador simple. En mi opinión, está bien diseñado también. Por ejemplo, escribí un script de ruby ​​para buscar errores 404 en mis sitios en muy poco tiempo.

+0

Deberías publicar una idea general sobre esto ya que implementaré la misma funcionalidad pronto. Otros probablemente lo usarían también. – cha55son

5

Es posible que desee comprobar wombat que está construido sobre Mechanize/Nokogiri y proporciona una DSL (como Sinatra, por ejemplo) para analizar páginas. Bastante limpio :)

1

estoy trabajando en pioneer gem que no es una araña, pero un simple rastreador asincrónica basada en em-synchrony gem

+1

Lo mejor que puedo decir es que 'web spider' y 'web crawler' son sinónimos. –

+0

El inglés no es mi idioma nativo, así que puedo estar equivocado, pero me parece que ese crawler es algo más general que spider. Spider es un tipo de material completo: navega recursivamente a través de enlaces. Y pionero es más como un pequeño marco. Podrías escribir tu propia araña con pionero y puedes hacer más;). Pero necesita hacer más trabajo manualmente, para usarlo como pionero, pero es más ágil. – fl00r

+1

Según [Wikipedia] (http://en.wikipedia.org/wiki/Web_crawler): "Otros términos para rastreadores web son hormigas, indexadores automáticos, bots, arañas web, robots web ..." Esto coincide con el [Sinónimos de StackOverflow para rastreador web] (http://stackoverflow.com/tags/web-crawler/synonyms). –

0

Me acaba de lanzar un llamado recientemente Klepto. Tiene un DSL bastante simple, está construido sobre el capibara y tiene muchas opciones de configuración geniales.

+2

Sería bueno si pudiera expandir su respuesta y explicar más acerca de estas interesantes opciones y por qué su biblioteca es mejor para la tarea. También tenga cuidado al publicar enlaces a sus propios proyectos, la comunidad puede verlo como un poco spam. – Kev

Cuestiones relacionadas