2009-08-25 22 views
8

Estoy ejecutando un sitio con mucho contenido, pero con poco tráfico, en un servidor dedicado de la mitad del camino.¿Cómo evitar que Googlebot sea un sitio abrumador?

De vez en cuando, Googlebot nos estampida, lo que hace que Apache maximice su memoria y haga que el servidor falle.

¿Cómo puedo evitar esto?

+3

Esto podría no ser Google en absoluto. Identifique las direcciones IP de los bots ofensivos y realice la búsqueda inversa. Verifique si se resuelve en el dominio de Google. He visto bots muy agresivos que usaban el agente de usuario de Googlebot. – DmitryK

Respuesta

7
  • registro en las herramientas para webmasters de Google, verifique su sitio y Google acelerador bot abajo
  • presentar un mapa del sitio
  • leer el Google guildelines: (If-Modified-Since encabezado HTTP)
  • uso robot.txt para restringir el acceso desde hasta bot en algunas partes del sitio web
  • crea un script que cambia el robot.txt cada $ [período de tiempo] para asegurarte de que el bot nunca puede rastrear demasiadas páginas al mismo tiempo mientras se asegura de que pueda rastrear todo el contenido en general
0

Puede configurar la velocidad de rastreo en las herramientas del webmaster de Google.

1

Registre su sitio con las Herramientas para webmasters de Google, que le permite establecer con qué frecuencia y cuántas solicitudes por segundo googlebot debería tratar de indexar su sitio. Las Herramientas para webmasters de Google también pueden ayudarlo a crear un archivo robots.txt para reducir la carga en su sitio

7

Puede establecer cómo se rastrea su sitio usando las herramientas para webmasters de google. Mire específicamente esta página: Changing Google's crawl rate

También puede restringir las páginas que busca el bot de Google utilizando un archivo robots.txt. Hay una configuración disponible para crawl-delay, pero parece que es not honored por google.

1

Tenga en cuenta que puede establecer la velocidad de rastreo a través de Herramientas para webmasters de Google (en Configuración del sitio), pero solo respetan la configuración durante seis meses. Por lo tanto, debe iniciar sesión cada seis meses para configurarlo nuevamente.

Esta configuración se cambió en Google. La configuración solo se guarda durante 90 días (3 meses, no 6).

Cuestiones relacionadas