Robots.txt, ¿cómo permitir el acceso solo a la raíz del dominio y no más?

Quiero permitir que los rastreadores accedan al directorio raíz de mi dominio (es decir, el archivo index.html), pero nada más profundo (es decir, no hay subdirectorios). No quiero tener que listar y negar cada subdirectorio individualmente en el archivo robots.txt. Actualmente tengo lo siguiente, pero creo que está bloqueando todo, incluso cosas en la raíz del dominio.Robots.txt, ¿cómo permitir el acceso solo a la raíz del dominio y no más?

User-agent: * 
Allow: /$ 
Disallow:/

¿Cómo puedo escribir mi robots.txt para lograr lo que estoy intentando?

¡Gracias de antemano!

Fuente

2011-03-05 WASa2

Esto no se puede hacer de una manera "robot universal". ¿Tiene acceso a un .htaccess o similar? – alexn

Tengo acceso a .htaccess. Básicamente, mi objetivo, utilizar robots.txt, metaetiquetas y metacabezadores http, es hacer todo lo que puedo para evitar que todo lo que no sea mi página principal (es decir, index.html) termine en los resultados de un motor de búsqueda. – WASa2

No hay nada que funcione para todos los rastreadores. Hay dos opciones que pueden serle útiles.

Los robots que permiten comodines deben apoyar algo como:

Disallow: /*/

Los principales rastreadores de motores de búsqueda a entender los comodines, pero desafortunadamente la mayoría de los más pequeños no lo hacen.

Si tiene relativamente pocos archivos en la raíz y no agrega a menudo nuevos archivos, puede usar Allow para permitir el acceso solo a esos archivos, y luego usar Disallow: / para restringir todo lo demás. Es decir:

User-agent: * 
Allow: /index.html 
Allow: /coolstuff.jpg 
Allow: /morecoolstuff.html 
Disallow:/

El orden aquí es importante. Se supone que los rastreadores toman el primer partido. Por lo tanto, si su primera regla fue Disallow: /, un rastreador que se comporte correctamente no accederá a las siguientes líneas Allow.

Si un rastreador no es compatible con Allow, entonces verá el Disallow: / y no rastreará nada en su sitio. Siempre que, por supuesto, ignore las cosas en robots.txt que no comprende.

Todos los principales rastreadores de motores de búsqueda admiten Allow, y muchos de los más pequeños también. Es fácil de implementar.

Fuente

2011-03-05 22:28:31

En resumen, no hay forma de hacerlo bien utilizando el estándar robots.txt. Recuerde que Disallow especifica un prefijo de ruta. Los comodines y los permisos no son estándar.

Por lo tanto, el siguiente enfoque (un kludge!) Funcionará.

User-agent: * 
Disallow: /a 
Disallow: /b 
Disallow: /c 
... 
Disallow: /z 
Disallow: /A 
Disallow: /B 
Disallow: /C 
... 
Disallow: /Z 
Disallow: /0 
Disallow: /1 
Disallow: /2 
... 
Disallow: /9

Fuente

2011-09-30 12:46:12

Robots.txt, ¿cómo permitir el acceso solo a la raíz del dominio y no más?

Respuesta

Cuestiones relacionadas