Estoy usando scrapy para rastrear varias páginas en un sitio. La variable start_urls
se usa para definir las páginas que se rastrearán. Me gustaría empezar inicialmente con primera página, definiendo así start_urls = [1st page]
en el archivo example_spider.py
dynamic start_urls in scrapy
Tras conseguir más información de primera página, que determinaría cuáles son las páginas siguientes para ser rastreadas, entonces asignaría start_urls
en consecuencia. Por lo tanto, tengo que sobrescribir arriba example_spider.py con cambios en start_urls = [1st page, 2nd page, ..., Kth page]
, luego ejecutar scrapy crawl nuevamente.
¿Es ese el mejor enfoque o hay una mejor manera de asignar dinámicamente start_urls
utilizando la API de scrapy sin tener que sobrescribir example_splider.py
? Gracias.
es el parseItem (self, response) devuelve el artículo? – friddle
'parseItem' como cualquier otra devolución de llamada puede devolver un' Item' u otra 'Solicitud' con otra devolución de llamada – warvariuc
gracias por su respuesta – friddle