2011-05-06 22 views
9

¿Cuáles son algunas herramientas basadas en Ruby que pueden ayudarme a lograr algo similar a lo que hace Scrapy para Python? http://doc.scrapy.org/intro/overview.htmlRuby alternative to Scrapy?

+2

Es posible que desee dar sólo scrapy un tiro. Parece tener una excelente documentación y una API muy amigable. Si estás familiarizado con el rubí recogiendo python, probablemente no te tomará más de un día o dos. Son idiomas extremadamente similares. – zeekay

+0

@zeekay, ¿te refieres a [scrappy] (http://rubydoc.info/gems/scrappy/0.3.5/frames)? – Zabba

+1

No, preguntó acerca de una alternativa de ruby ​​a scrapy, que es un marco de aplicación python para rastrear sitios web y extraer datos estructurados. Estaba señalando que aprender Python es fácil, y que también podría usarlo (suponiendo que no se encuentre una alternativa satisfactoria). – zeekay

Respuesta

11

Hay Mechanize que se basa en Nokogiri.

Hay Nokigiri que se basa en XPath.

Hpricot es otra herramienta.

Hay Scrapi que se basa en selectores CSS para extraer información, pero funciona más lento que Nokogiri en función de mis pruebas.

Hay scRUBYt.

Estoy seguro de que hay otros, pero estos son los que encontré.

Si no encuentra una sola herramienta que resuelva sus problemas, consulte las bibliotecas de spidering web como Anemone y combínelas con uno de los marcos de raspado de bajo nivel mencionados anteriormente.

O simplemente adelante y aprenda Python. Expandirá tu karma en el mundo de la programación.

+2

Por lo que puedo decir (no conozco a Ruby), esos módulos son solo analizadores HTML/XML, no marcos de análisis como Scrapy. . – Acorn

+1

@Acorn - estos son todos los marcos de raspado. Lo que no tienen es un rastreador o una araña. El raspado es ortogonal al rastreo. – Anurag

+5

Pero ... gatear es solo un aspecto de Scrapy. Tiene muchas características que se aplican a cualquier tipo de raspado, como elementos y tuberías para almacenar resultados. Las herramientas con las que se vinculó parecen comparables a lxml o BeautifulSoup en lugar de Scrapy. – Acorn