Por alguna razón, cuando consulto el "Análisis de robots.txt" de la Herramienta para webmasters de Google para ver qué direcciones URL están bloqueadas por nuestro archivo robots.txt, no es lo que estoy esperando. Aquí hay un fragmento desde el principio de nuestro archivo:Googlebot no respeta Robots.txt
Sitemap: http://[omitted]/sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Cualquier cosa en la carpeta de secuencias de comandos están bloqueadas correctamente, tanto para el robot de Google y Mediapartners-Google. Puedo ver que los dos robots están viendo la directiva correcta porque el robot de Google dice que los guiones están bloqueados desde la línea 7 mientras que Mediapartners-Google está bloqueada desde la línea 4. Y aún así, CUALQUIER otra URL que ingrese desde las URL rechazadas bajo el segundo usuario ¡La directiva de reactivos NO está bloqueada!
Me pregunto si mi comentario o el uso de direcciones URL absolutas están atornillando las cosas ...
Cualquier idea se agradece. Gracias.
¿Es correcta la primera línea? http://www.sitemaps.org/protocol.php#submit_robots indica que la ubicación del mapa del sitio debe ser la URL completa. –
El mapa del sitio con la URL completa está bien, pero las listas de rechazo aún deberían ser absolutas. –
Siguiendo a David Z a continuación, ¿no sería esta formulación un poco más clara ?: El mapa del sitio con la URL completa está bien, pero las listas de rechazo deben ser URL relativas basadas en la raíz del documento. – tuk0z