2010-08-06 17 views
5

Durante el último mes he estado usando Scrapy para un proyecto de rastreo web que he comenzado.¿Mejor rastreador de gráficos web para mayor velocidad?

Este proyecto consiste en extraer el contenido completo del documento de todas las páginas web en un solo nombre de dominio al que se puede acceder desde la página de inicio. Escribir esto usando Scrapy fue bastante fácil, pero simplemente funciona demasiado lento. En 2-3 días solo puedo desplegar 100.000 páginas.

Me he dado cuenta de que mi idea inicial de que Scrapy no es para este tipo de rastreo se está revelando.

Empecé a centrar mi atención en Nutch y en Methabot con la esperanza de obtener un mejor rendimiento. La única información que necesito almacenar durante el rastreo es el contenido completo de la página web y preferiblemente todos los enlaces en la página (pero incluso eso se puede hacer en el postprocesamiento).

Estoy buscando un rastreador rápido y emplea muchas solicitudes paralelas.

Respuesta

5

Esto es culpa mía del servidor, no de Scrapy. Es posible que el servidor no sea tan rápido como lo desee o que este (o webmaster) detecte el rastreo y limite de velocidad para esta conexión/cookie. ¿Utiliza proxy? Esto puede ralentizar el rastreo también. Esto puede ser sabiduría de Scrapy, si se arrastra demasiado intensivamente puede obtener la prohibición de este servidor. Para mi C++ handwritten crawler establecí artificialmente 1 límite de solicitud por segundo. Pero esta velocidad es suficiente para 1 hilo (1 req * 60 seg * 60 minutos * 24 horas = 86400 req/día). Si está interesado, puede escribir un correo electrónico a whalebot.helmsman {AT} gmail.com.

+0

También puede ser su ISP. –

2

Scrapy le permite determinar el número de solicitudes concurrentes y la demora entre las solicitudes en its settings.

0

¿Sabes dónde está el cuello de botella ?. Como señaló whalebot.helmsman, el límite puede no estar en Scrapy, sino en el servidor que está rastreando.

Debe comenzar por averiguar si el cuello de botella es la red o la CPU.

Cuestiones relacionadas