2012-07-22 24 views
6

Necesito ayuda para configurar Tor en Ubuntu y usarlo dentro del framework scrapy.Uso del proxy Tor con scrapy

me hizo una investigación y descubrió esta guía:

class RetryChangeProxyMiddleware(RetryMiddleware): 

    def _retry(self, request, reason, spider): 
     log.msg('Changing proxy') 
     tn = telnetlib.Telnet('127.0.0.1', 9051) 
     tn.read_until("Escape character is '^]'.", 2) 
     tn.write('AUTHENTICATE "267765"\r\n') 
     tn.read_until("250 OK", 2) 
     tn.write("signal NEWNYM\r\n") 
     tn.read_until("250 OK", 2) 
     tn.write("quit\r\n") 
     tn.close() 
     time.sleep(3) 
     log.msg('Proxy changed') 
     return RetryMiddleware._retry(self, request, reason, spider) 

luego usarlo en settings.py:

DOWNLOADER_MIDDLEWARE = { 
         'spider.middlewares.RetryChangeProxyMiddleware': 600, 
         } 

y luego lo que desea es enviar solicitudes a través del proxy Tor local (polipo), que se podría hacer con:

tsocks scrapy crawl spirder 

¿alguien puede confirmar, que funciona este método y se obtiene di ¿IPs diferentes?

+0

sólo trato en su propio recurso y comprobar los registros del servidor. Y establezca la lista de identificadores de navegador para ocultar a los propietarios :) o agregue unid id para su rastreador. – nk9

+0

¿Cómo configuro una lista de identificaciones de navegador? – DjangoPy

+0

Oh ... No trabajé con scrapy, así que busco ayuda ahora :). Pero para realizar pruebas en su propio sitio, mejor utilice la idónica unic para registros de análisis fáciles – nk9

Respuesta