2010-01-29 20 views
5

¿Hay alguna manera de forzar a una araña a ralentizar su ataque de un sitio web? ¿Algo que pueda colocarse en encabezados o robots.txt?Ralentización de spidering del sitio web

Pensé que recordaba haber leído algo sobre esto, pero ahora no puedo encontrar nada.

+0

¿Por qué quieres reducir la velocidad? –

Respuesta

14

Si te refieres a Google, puedes reducir la velocidad con la que Google araña tu sitio al usar tu cuenta Google Webmaster (Google Webmaster Tools).

También es éste, que puede poner en robots.txt

User-agent: * 
Crawl-delay: 10 

Cuando el retraso de rastreo se especifica como el número de segundos entre cada rastreo página. Por supuesto, como todo lo demás en robots.txt, el rastreador debe respetarlo, por lo tanto, YMMV.

0

No creo que los robots hagan nada excepto permitir o rechazar. La mayoría de los motores de búsqueda le permitirán personalizar cómo indexan su sitio.

Por ejemplo: Bing y Google

Si usted tiene un agente específico que está causando problemas, es posible que sea bloquearlo en concreto, o ver si se puede configurar.

5

Más allá de utilizar las herramientas para webmasters de Google para el robot de Google (véase la respuesta Robert Harvey 's), Yahoo! y Bing apoyar el estándar Crawl-delay Directiva en robots.txt:

http://en.wikipedia.org/wiki/Robots.txt#Nonstandard_extensions

A la hora de la verdad, sin embargo, un robot que se porta mal y que está golpeando su sitio simplemente tendrá que ser bloqueado en un nivel superior (por ejemplo, equilibrador de carga, enrutador, proxy de almacenamiento en caché, lo que sea apropiado para su arquitectura).

2

Consulte Throttling your web server para una solución usando Perl. Randal Schwartz dijo que sobrevivió a un ataque de Slashdot usando esta solución.

Cuestiones relacionadas