Por lo tanto, mi problema es relativamente simple. Tengo una araña que rastrea varios sitios y necesito que devuelva los datos en el orden en que los escribo en mi código. Está publicado a continuación.URL de Scrapy Crawl en orden
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from mlbodds.items import MlboddsItem
class MLBoddsSpider(BaseSpider):
name = "sbrforum.com"
allowed_domains = ["sbrforum.com"]
start_urls = [
"http://www.sbrforum.com/mlb-baseball/odds-scores/20110328/",
"http://www.sbrforum.com/mlb-baseball/odds-scores/20110329/",
"http://www.sbrforum.com/mlb-baseball/odds-scores/20110330/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//div[@id="col_3"]//div[@id="module3_1"]//div[@id="moduleData4952"]')
items = []
for site in sites:
item = MlboddsItem()
item['header'] = site.select('//div[@class="scoreboard-bar"]//h2//span[position()>1]//text()').extract()# | /*//table[position()<2]//tr//th[@colspan="2"]//text()').extract()
item['game1'] = site.select('/*//table[position()=1]//tr//td[@class="tbl-odds-c2"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c4"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c6"]//text()').extract()
items.append(item)
return items
Los resultados se devuelven en un orden aleatorio, por ejemplo, se devuelve el 29a, entonces la 28a, entonces la 30a. Intenté cambiar el orden del programador de DFO a BFO, por si ese era el problema, pero eso no cambió nada.
Gracias de antemano.
Caan que nos muestran cómo se está llamando tu araña? –
> Tengo una araña que rastrea varios sitios, ¿Quiere decir varias URL de inicio? – warvariuc