Durante el último mes he estado usando Scrapy para un proyecto de rastreo web que he comenzado.¿Mejor rastreador de gráficos web para mayor velocidad?
Este proyecto consiste en extraer el contenido completo del documento de todas las páginas web en un solo nombre de dominio al que se puede acceder desde la página de inicio. Escribir esto usando Scrapy fue bastante fácil, pero simplemente funciona demasiado lento. En 2-3 días solo puedo desplegar 100.000 páginas.
Me he dado cuenta de que mi idea inicial de que Scrapy no es para este tipo de rastreo se está revelando.
Empecé a centrar mi atención en Nutch y en Methabot con la esperanza de obtener un mejor rendimiento. La única información que necesito almacenar durante el rastreo es el contenido completo de la página web y preferiblemente todos los enlaces en la página (pero incluso eso se puede hacer en el postprocesamiento).
Estoy buscando un rastreador rápido y emplea muchas solicitudes paralelas.
También puede ser su ISP. –