¿Busca una recomendación de un buen tutorial sobre las mejores prácticas para un proyecto de raspado web?

Necesito hacer un proyecto bastante extenso que involucre raspado web y estoy considerando usar Hpricot o Beautiful Soup (es decir, Ruby o Python). ¿Alguien ha encontrado un tutorial que pensaban que era particularmente bueno en este tema que me ayudaría a comenzar el proyecto con el pie derecho?¿Busca una recomendación de un buen tutorial sobre las mejores prácticas para un proyecto de raspado web?

Fuente

2009-03-26 Anonymous

Hay una excelente Railscasts episode en ScrAPI.

Fuente

2009-11-12 02:05:13 ski

Dos de mis herramientas favoritas para el web scraping de Python son Scrapy y Mechanize. Cada uno de estos proyectos tiene su propio tutorial y mejores prácticas.

Fuente

2009-03-26 05:56:10 RexE

También hay una versión Ruby de Mechanize. –

Gracias por Scrapy. Parece genial – Alagu

No es una herramienta, de verdad, pero una buena discusión es el libro de Michael Shrenk, Webbots, Spiders, and Screen Scrapers.

El libro tiene muy buen éxito en su misión declarada: explicar cómo construir bots web simples y operarlos de acuerdo con los estándares de la comunidad. No es todo lo que necesitas saber, pero es la mejor introducción que he visto. El foco está en bots simples de un solo hilo. Hay una pequeña mención sobre el uso de múltiples bots que almacenan datos en un repositorio central, pero no se discuten los problemas que implica escribir bots multiproceso o distribuidos que pueden procesar cientos de páginas por segundo.

Le recomiendo que lea este libro si está interesado en escribir Web bots, incluso si no está familiarizado con PHP o tiene la intención de hacerlo. Pero asegúrese de no esperar más que las ofertas del libro.

Fuente

2009-03-26 06:01:26

Para Ruby, el conjunto de herramientas para raspar web Scrubyt es excelente. Aquí está el an extensive introduction, que vale la pena leer incluso si va a utilizar alguna otra herramienta.

Fuente

2009-03-26 06:20:00 user37011

Examine el uso de lxml en lugar de BeautifulSoup. A pesar de su nombre, también es para analizar y raspar HTML. Es mucho, mucho más rápido que BeautifulSoup, e incluso maneja HTML "roto" mejor que BeautifulSoup (su reclamo de fama - lxml simplemente no es tan vocal al respecto). También tiene una API de compatibilidad para BeautifulSoup si no desea aprender la API lxml.

Ian Blicking agrees.

No hay ninguna razón para usar BeautifulSoup, a menos que esté en Google App Engine o algo en que no esté permitido nada que no sea puramente Python.

Fuente

2009-08-03 15:38:28 aehlke

Tome un vistazo a las siguientes grabaciones de pantalla:

O si le gusta llanura, los correspondientes asciicasts:

Fuente

2010-03-24 22:38:27

¿Busca una recomendación de un buen tutorial sobre las mejores prácticas para un proyecto de raspado web?

Respuesta

Cuestiones relacionadas