2011-09-30 29 views
12

¿Alguien puede explicar el comando Robots.txt correcto para la siguiente situación?Robots.txt Permitir subcarpeta pero no la primaria

me gustaría permitir el acceso a:

/directorio/subdirectorio/..

Pero también me gustaría para restringir el acceso a /directorio/ no obstante la excepción anteriormente.

Respuesta

14

Tenga en cuenta que no existe una norma oficial real y que cualquier rastreador web puede ignorar alegremente su robots.txt

Según a Google groups post, los siguientes trabajos al menos con GoogleBot;

User-agent: Googlebot 
Disallow: /directory/ 
Allow: /directory/subdirectory/ 
+2

Quería permitir dinámicamente subdirectorios pero no ese primer nivel, cambiando la instrucción Permitir a 'Permitir:/directorio/* /' funciona. – Duncanmoo

+2

De acuerdo con la entrada Wikipedia de robots.txt, la directiva 'Permitir' debe colocarse antes del 'No permitir' para la máxima compatibilidad (aunque ni Google ni Bing le importará) – pelms

2

Si estos son realmente directorios, entonces la respuesta aceptada es probablemente su mejor opción. Pero, si está escribiendo una aplicación y los directorios son rutas generadas dinámicamente (contextos a.k.a., rutas, etc.), entonces puede usar metaetiquetas en lugar de definirlas en el archivo robots.txt. Esto le da la ventaja de no tener que preocuparse de cómo diferentes navegadores pueden interpretar/priorizar el acceso a la ruta del subdirectorio.

Usted puede tratar de algo como esto en el código:

if is_parent_directory_path 
    <meta name="robots" content="noindex, nofollow"> 
end 
1

yo recomendaría usar probador robot de Google. Utilice las herramientas para webmasters de Google: https://support.google.com/webmasters/answer/6062598?hl=en

Puede editar y probar las URL directamente en la herramienta, además de obtener una gran cantidad de otras herramientas también.

+0

¡Buen punto! No estoy seguro de si estaba disponible en 2011 cuando publiqué esto, pero es una adición muy útil a WMT. – QFDev

+0

QFDEV Tuve que usar el probador de Robot hoy porque estoy trabajando muy duro para lograr que nuestra empresa obtenga una clasificación más alta en los resultados de búsqueda de Google. Y lo único que veo en "Mejoras de HTML" son títulos duplicados y metaetiquetas. Esto se debe a que están leyendo las mismas páginas dos veces (cadenas de consulta). Además, por alguna razón, el robot rastrea directorios que no existen. Encontré su publicación, que ayudó y luego notó el probador en las herramientas de Google Web Master y vio que validaría los cambios. Pensé que podría ayudar a otros desarrolladores publicando en su hilo. – Moojjoo

Cuestiones relacionadas