2010-10-29 16 views

Respuesta

28

Necesita un archivo simple robots.txt. Básicamente, es un archivo de texto que le dice a los motores de búsqueda que no indexen páginas particulares.
No necesita incluirlo en el encabezado de su página; siempre que esté en el directorio raíz de su sitio web, será rastreado por los rastreadores.
crear en la carpeta raíz de su sitio web y poner el texto siguiente en:

User-Agent: * 
Disallow: /imprint-page.htm 

Tenga en cuenta que desea reemplazar imprint-page.html en el ejemplo con el nombre real de la página (o el directorio) que desea para evitar ser indexado

Eso es todo! Si desea obtener más avanzada, puede consultar here, here o here para obtener más información. Además, puede encontrar herramientas gratuitas en línea que generarán un archivo robots.txt (por ejemplo, here).

+0

Aquí hay un buen tutorial: http://www.javascriptkit.com/howto/robots.shtml –

+0

¡Gracias Sam! Agregó su enlace al lado del otro tutorial. – Donut

+0

¡Muchas gracias! ¿Debo incluir robots.txt en algún lugar del encabezado? ¿O es suficiente simplemente colocarlo en la raíz del sitio web? –

5

Puede configurar un archivo robots.txt para intentar que los motores de búsqueda ignoren ciertos directorios.

See here for more info.

Básicamente:

User-agent: * 
Disallow: /[directory or file here] 
25

también usted puede añadir siguiente etiqueta meta en la mente de esa página

<meta name="robots" content="noindex,nofollow" /> 
+0

buena idea. Hizo esto adicionalmente –

+6

Esta es una solución mejor que usar robots.txt. La razón es que si elimina una página de robots.txt, los motores de búsqueda ni siquiera visitarán la página. Si hay enlaces que apuntan a la página, no la eliminarán del índice porque no se los indicó. Google mostrará la página sin una descripción, porque conocen la página pero no saben qué hay en la página. La única manera de eliminarlo explícitamente del índice es decirle a los motores que no desea que se muestre con el comando 'noindex'. – eywu

+1

Esto es un problema (demasiado tiempo para codificar) si el encabezado se incluye dinámicamente como idioma del lado del servidor como php, que será el mismo para todas las páginas. –

3

Hoy en día, el mejor método es utilizar un robots meta tag y ponerlo a noindex,follow:

<meta name="robots" content="noindex, follow"> 
2
<meta name="robots" content="noindex, nofollow"> 

basta con incluir esta línea en su <html><head> etiqueta. Por qué le digo esto porque si usa el archivo robots.txt para ocultar sus URL que podrían ser páginas de inicio de sesión u otras URL protegidas que no se mostrarán a otra persona ni a los motores de búsqueda.

Lo que puedo hacer es acceder al archivo robots.txt directamente desde su sitio web y puedo ver qué URLs tiene son secretas. Entonces, ¿cuál es la lógica detrás de este archivo robots.txt?

La buena manera es incluir la metaetiqueta desde arriba y mantenerse a salvo de nadie.

Cuestiones relacionadas