2010-07-08 17 views
22

Tengo mi blog (puede verlo si lo desea, desde mi perfil), y es fresco, así como los resultados de análisis de Google Robots son.¿Hay alguna manera de hacer que los robots ignoren cierto texto?

Los resultados fueron alarmantes para mí. Aparentemente las 2 palabras más comunes en mi sitio son "rss" y "feed", porque uso texto para enlaces como "Comentarios RSS", "Post Feed", etc. Estas 2 palabras estarán presentes en cada publicación, mientras que otras palabras será más raro

¿Hay alguna manera de hacer que estos enlaces desaparezcan del análisis de Google? No quiero enlaces técnicos indexados. Solo quiero que el contenido, los títulos y las descripciones se indexen. Estoy buscando algo más que reemplazar este texto con imágenes.

he encontrado algunos debates antiguos en Google, de vuelta de 2007 (creo que en 3 años, muchas cosas podrían haber cambiado, espero que esto también)

Esta pregunta no es acerca de robots.txt y cómo hacer caso omiso de Google páginas. Se trata de hacer que ignore partes pequeñas de la página, o transformar las partes de tal manera que sea visto por los humanos e invisible para los robots.

Respuesta

12

Hay una forma sencilla de decirle a Google que no partes de índice de los documentos, es decir, utilizando googleon y googleoff:

<p>This is normal (X)HTML content that will be indexed by Google.</p> 

<!--googleoff: index--> 

<p>This (X)HTML content will NOT be indexed by Google.</p> 

<!--googleon: index--> 

En este ejemplo, el segundo párrafo no será indexado por Google.Observe el parámetro “index”, que puede ser definido como una de las siguientes opciones:

  • index - contenido rodeado de “googleoff: index” no será indexado por Google

    anchor - texto de anclaje de los enlaces dentro de un área “googleoff: anchor” no se asociará con la página de destino

    snippet - contenido rodeado de “googleoff: snippet” se No se utilizará para crear fragmentos de resultados de la búsqueda

    all - contenido rodeado de “googleoff: all” son tratados con todo

source

+1

Parece legítimo. Sin embargo, la pregunta ha perdido su relevancia para mí. No puedo probarlo, pero en una búsqueda parece que esta es la solución. Lo marcó como tal, pero todos los que lean esto, sabrán que no ha sido probado hasta el momento. Más información de utk.edu http://google.utk.edu/ut-help/googleongoogleoff/ – AlexanderMP

+7

Esto es para GSA, no para GoogleBot. de wikibedia: http://en.wikipedia.org/wiki/Noindex La principal araña de indexación de Google, Googlebot, no reconoce ninguna de estas técnicas. – Myster

+8

'googleon',' googleoff'tags solo son compatibles con Google Search Appliance (cuando aloja sus propios resultados de búsqueda). Esto no evitará que Google bot rastree ese texto. – reversiblean

1

El único control que tiene sobre los robots de indexación es el archivo robots.txt. Ver this documentation, enlazado por Google en their page explaining the usage of the file.

Básicamente puede prohibir ciertos enlaces y URL, pero no necesariamente palabras clave.

+2

Sí, sé de robots.txt. Eso está implementado. Los motores de búsqueda rusos proporcionan ciertas etiquetas, como , y el motor de búsqueda hace caso omiso de cualquier elemento intermedio. Yahoo proporciona algo basado en nombres de clase. ¿Google no ofrece nada? – AlexanderMP

0

tiene que detectar manualmente el "Google Bot" del agente de usuario de la solicitud y proporcionarles un contenido diferente de lo que normalmente le sirve a su usuario.

+2

Eso es un consejo horrible. Es una buena manera de obtener una palmada de Google. –

+0

No creo que sea tan malo. ¿Qué sucede si tiene un sitio basado en suscripción pero aún desea que Google indexe el contenido? No creo que vayas a obtener 'google-spanked' –

+1

@ Aaron Harun, no es sombrero negro seo su sombrero completamente blanco, siempre y cuando no se sirva contenido completamente diferente. – iamgopal

0

No, realmente no hay nada de eso. Existen varias técnicas del lado del servidor, pero si Google detecta que le sirve a su bot un texto diferente del que le da a los visitantes del sitio, lo penalizará.

1

Aparte de los métodos black-hat del lado del servidor, no hay nada que pueda hacer. Es posible que desee ver por qué tiene esas palabras con tanta frecuencia y eliminar algunas de ellas del sitio.

Solía ​​ser que se podía usar JS para "ocultar" cosas de googlebot, pero ahora no se puede analizar el JS. (http://www.webmasterworld.com/google/4159807.htm)

+0

Eso es muy interesante. Entonces, si hago el reemplazo de texto con herramientas como cufon, Google bot analizará ese JS, transformará el texto y lo ignorará porque entonces solo será un lienzo. – AlexanderMP

+0

Sin garantías, Google no ve nada acerca de lo que el robot puede y no puede hacer, por lo que probablemente no funcione. Sin embargo, puede comenzar con el lienzo en lugar de hacer que Cufon lo reemplace. –

7

Trabajo en un sitio con top-3 en el ranking de Google para miles de nombres de escuelas en los EE. UU., Y trabajamos mucho para proteger nuestro SEO. Hay 3 cosas principales que podría hacer (que son todos probablemente una pérdida de tiempo, sigue leyendo):

  • Mover las cosas que quiere restar importancia a la parte inferior de su HTML y el uso de CSS y/o para colocarlo donde quieres que los lectores lo vean. Esto no lo ocultará de los rastreadores, pero lo valorarán más abajo.
  • Reemplace los enlaces con imágenes (usted dice que no quiere hacer eso, pero no explica por qué no)
  • Sirve una página diferente a los rastreadores, con esos enlaces despojados. No hay nada de negro en esto, siempre y cuando el contenido sea fundamentalmente el mismo que el de un navegador. Los motores de búsqueda te molestarán si publicas una página que es significativamente diferente de lo que ven los usuarios, pero si eliminas los enlaces RSS de la versión del índice de rastreadores de página, no tendrás ningún problema.

Dicho esto, los rastreadores son inteligentes, y usted no es el único sitio lleno de enlaces permanentes y rss.Se preocupan por el contexto y buscan términos y frases en los encabezados y el texto del cuerpo. Ellos saben cómo determinar que su blog es sobre tecnología y no RSS. Dudo mucho que esos enlaces tengan un efecto negativo en tu SEO. ¿Qué problema estás tratando de resolver?

Si desea construir SEO, descubra qué valor le proporciona a los lectores y escriba al respecto. Diga cosas interesantes que llevarán a otros a vincular a su blog, y los rastreadores comprenderán que usted es una fuente de información que las personas valoran. Piense más sobre lo que sus lectores ven y entienden, y menos sobre lo que piensa que ve un rastreador.

+0

Gracias. Es solo que puedo hacer que mi blog aparezca en los mejores resultados si escribo una extraña combinación de nombres de categorías, 2 temas de publicaciones y agregando las palabras clave "rss" y "feed". Sin "rss" y "feed" es hasta el final. Volveré a leer las reglas y prestaré atención a las cláusulas asociadas a la publicación de contenido ligeramente diferente a los bots. – AlexanderMP

1

Primero piense en el problema. Si Google piensa que "RSS" es la palabra clave principal que puede sugerir que el resto de su contenido es un poco superficial y necesita expandirse. Tal vez este sea el foco de su atención. Si el resto de su contenido es rico, no me preocuparía el problema, ya que un motor de búsqueda debería saber de qué se trata la página a partir del título y los títulos. Solo asegúrese de que RSS, etc. no se encuentre en un encabezado o una etiqueta en negrita o fuerte.

En segundo lugar como lo mencionas con razón, probablemente no quieras usar imágenes ya que no son evaluables para lectores de pantalla sin texto alternativo y si tienen texto alternativo o de apoyo, entonces agregas la palabra clave nuevamente. Sin embargo, aria live may lo ayudo a solucionar este problema, pero no soy un experto en accesibilidad.

Opciones:

  • Uso de JavaScript para escribir esa parte del contenido (tal vez en ajax después de la carga). Los motores de búsqueda como Google pueden ejecutar JavaScript, pero supongo que no va a valorar mucho el contenido escrito de JS.
  • Vuelva a redactar el contenido o elimine los duplicados del mismo, un enlace de alimentación RSS prominente puede ser mejor que varios enlaces más pequeños diseminados por la página.
  • Utilice el atributo css content con pseudo: before o: after para agregar su contenido. No estoy seguro de si los bots indexarán las palabras en los atributos de contenido en CSS y conocerán el valor del contenido en relación con cada página, pero parece poco probable. Poner palabras como RSS en el CSS básicamente dice que es algo de estilo, no de HTML, por lo tanto, incluso si los motores lo indexan, no le agregarán mucho/ningún valor. Por ejemplo, el código HTML y CSS pueden ser:

    <a href="/my-feed.rss" class="add-text"></a> 
    
    .add-text:after { content:'View my RSS feed'; } 
    

cuenta que lo anterior no funcionará en versiones antiguas de IE, lo que puede tener algunos comentarios de versión de IE si se preocupan por eso.

0

Google crawler es inteligente pero alguien que los programa es más inteligente. Los humanos siempre ven lo que es sensato en la página, pasarán un tiempo en el blog que tienen un buen contenido y lo más raro y único. Todo se trata de sentido común, cómo las personas visitan su blog y cuánto tiempo pasan. Google mide el resultado de la búsqueda de la misma manera. El ranking de su página también aumenta a medida que las visitas diarias aumentan y el contenido del sitio mejora y se actualiza todos los días. Esta página tiene palabras de "Respuesta" repetidas varias veces. No significa que no se indexará. Es lo útil que es para todos. espero que le dará una idea

Cuestiones relacionadas