2009-01-20 15 views
6

Por alguna razón, cuando consulto el "Análisis de robots.txt" de la Herramienta para webmasters de Google para ver qué direcciones URL están bloqueadas por nuestro archivo robots.txt, no es lo que estoy esperando. Aquí hay un fragmento desde el principio de nuestro archivo:Googlebot no respeta Robots.txt

Sitemap: http://[omitted]/sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx 
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 

Cualquier cosa en la carpeta de secuencias de comandos están bloqueadas correctamente, tanto para el robot de Google y Mediapartners-Google. Puedo ver que los dos robots están viendo la directiva correcta porque el robot de Google dice que los guiones están bloqueados desde la línea 7 mientras que Mediapartners-Google está bloqueada desde la línea 4. Y aún así, CUALQUIER otra URL que ingrese desde las URL rechazadas bajo el segundo usuario ¡La directiva de reactivos NO está bloqueada!

Me pregunto si mi comentario o el uso de direcciones URL absolutas están atornillando las cosas ...

Cualquier idea se agradece. Gracias.

Respuesta

11

La razón por la que se ignoran es que tiene la URL completa en el archivo robots.txt para las entradas Disallow, mientras que specification no lo permite. (Solo debe especificar rutas relativas, o rutas absolutas usando /). Pruebe lo siguiente:

Sitemap: /sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: /Living/books/book-review-not-stupid.aspx 
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 

En cuanto a almacenamiento en caché, Google intenta obtener una copia del archivo robots.txt cada 24 horas en promedio.

+0

¿Es correcta la primera línea? http://www.sitemaps.org/protocol.php#submit_robots indica que la ubicación del mapa del sitio debe ser la URL completa. –

+0

El mapa del sitio con la URL completa está bien, pero las listas de rechazo aún deberían ser absolutas. –

+0

Siguiendo a David Z a continuación, ¿no sería esta formulación un poco más clara ?: El mapa del sitio con la URL completa está bien, pero las listas de rechazo deben ser URL relativas basadas en la raíz del documento. – tuk0z

-1

¿Ha realizado este cambio recientemente en su archivo robots.txt? En mi experiencia, parece que Google guarda en caché ese material durante mucho tiempo.

0

Ha estado funcionando durante al menos una semana, y Google dice que fue descargado por última vez hace 3 horas, así que estoy seguro de que es reciente.

+1

Probablemente sea mejor que edites la pregunta original (generalmente poniendo EIDT en negrita en la parte inferior seguida de la información adicional) en lugar de responder tu propia pregunta (me doy cuenta de que no puedes comentar todavía). – cletus

2

Son las URL absolutas. Sólo se supone que robots.txt incluye URI relativos; el dominio se infiere en función del dominio desde el que se accedió al robots.txt.