2011-11-03 13 views
8

En estos días me encuentro con varios resultados de búsqueda de Google que contienen los sitios con enlaces que coinciden exactamente con mis palabras de búsqueda. ¿Cómo es posible que los sitios cambien dinámicamente su contenido o, más bien, cómo engañan a Google para que indexe su página para mi palabra clave? He leído sobre granjas de contenido, pero eso no parece ser una respuesta correcta. ¿Alguien me puede decir cómo se llama esta técnica? Trataré de entender más sobre eso.cómo algunos sitio con enlaces falsos aparecen en los resultados del motor de búsqueda

Respuesta

8

Mi entendimiento es que la única manera de conseguir en Google o cualquier otro motor de indexación es tener el robot realmente rastrear su sitio y generar resultados. Obviamente, Google puede rastrear sitios dinámicos:

sin embargo me parece que esto es un cambio evolutivo en lugar de revolucionario con respecto a su pregunta.

Lo que creo que está pasando detrás de las escenas es la combinación de estas cosas:

  • índice de contenido
  • índice elaborado
  • CPPEU
  • Referente actualizaciones de búsqueda

Trataré de explicar cada uno de estos en un sitio ficticio que vende música. Tienes muchos ejemplos para comparar. re la experiencia. Por supuesto, estará en el dominio ejemplo.com.

índice de contenido

Obviamente, como un sitio que quiere ofrecer algo, que en realidad tienen algún contenido. Usualmente, usted agrupa estos contenidos de alguna manera. Asumamos nuestro sitio de música puede contenido en grupos por diferentes categorías:

  • Autor
  • género musical
  • enviados por los usuarios
  • clasificación de contenido

Cada uno de éstos se puede representar de forma abstracta como una etiqueta . Por ejemplo, nuestro sitio podría elegir tener example.com/tags/eagles para representar a Eagles o example.com/tags/rock para representar todas las bandas de rock. Google podría indexar estos, por lo que cualquier búsqueda potencial podría generar un enlace a nuestro sitio.

índice elaborado

índice elaborado es similar, pero es un índice genérico en lugar del contenido real. Esto se puede preparar de varias maneras, tales como:

  • Tome un diccionario y añadir todas las palabras
  • rastreo unos pocos millones de páginas de la Web (posiblemente usando los enlaces proporcionados por los motores de búsqueda!) Y obtener frases repetidas a menudo a partir de ahí
  • contenido Grab de foros libres
  • Uso Wikipeda
  • Obtener texto de libros de libre acceso, como los de Project Gutenberg

Nuestro sitio sería, por ejemplo, obtener cualquier palabra de textos que estén relacionados con la música de alguna manera y hagan etiquetas similares a las anteriores. P.ej. simplemente al rastrear la página Rock music en Wikipedia, puede obtener muchas etiquetas.

CPPEU

Esto es algo que por lo general se produce después de que su sitio está en marcha y funcionando. Digamos que ponemos un cuadro de búsqueda en nuestro sitio y luego los usuarios entran y escriben "música rock". Doh, ya lo sabíamos, así que nada bueno de esa búsqueda. Sin embargo, digamos que recorremos todos los registros de nuestro servidor web y vemos algunas búsquedas de langeleik. Ahora, eso sería algo que no podríamos haber indexado antes. Genial, acaba de generar otra etiqueta en nuestro sitio.

Obviamente, Google no lo sabe, así que creamos una entrada en nuestro sitemap y está allí después de otro rastreo de Googlebot. Cuando un usuario busca "langeleik" en Google, uno de los enlaces puede ser un enlace a example.com/tags/langeleik.

Existen otras formas, posiblemente mucho más valiosas, de entrada de los usuarios: comentarios, publicaciones en el foro, etc. De ahí que haya muchos foros genéricos que no tienen otra finalidad que los foros de alojamiento. Es una gran fuente de datos y obtienes contenido nuevo gratis.

Al final, todo esto debe ir al site sitemap. Puede tener enormes mapas de sitio, ver esto:

Referidos

Lo último es referencias. De nuevo, una vez que su sitio esté en funcionamiento, algunas de las búsquedas de Google le llegarán directamente. Eso es cuando se puede tomar ventaja de la cabecera HTTP Referer (sí, es una falta de ortografía - comprobarlo en Wikipedia), ver esto:

Tenga en cuenta que la búsqueda de Google es a la vez:

  • incompleto
  • Fuzzy

Por lo tanto, puede buscar "langeleik" arriba, pero algunos de los enlaces tienen el título de, p. Ej. "Langeleik y Harpe". Nada inusual, pero tenga en cuenta también lo contrario: si busca "langeleik y harpe", no solo encontrará todas las páginas con términos, sino también páginas con una u otra. Si conocemos a harpe, pero no a langeleik, y alguien busca "langeleik y harpe", obtendremos el encabezado HTTP Referer un parámetro q como q=langeleik+harpe. Genial: acabo de recibir otra palabra para agregar a nuestro mapa del sitio, si queremos.

En cuanto a la falta de claridad, tenga en cuenta que cuando busca "águilas", puede obtener de todo, desde aves a través de equipos de la NFL a una banda de rock. Por lo tanto, a pesar de que somos un sitio de música, podemos ampliar nuestro horizonte (si se desea) a las últimas noticias de la NFL, algo totalmente independiente y muy útil para algunos sitios.

Conclusión - es una ilusión

considero la combinación de todos ellos una fuente de creación de mapa de sitio muy rico. Puede generar fácilmente millones de etiquetas únicas utilizando las técnicas anteriores. Por lo tanto, "cualquier cosa" que escriba se encontrará en example.com/tags.

Sin embargo, hay que tener en cuenta que esto es sólo una ilusión . Por ejemplo, si busca "ertfghedctgb" (se escribe fácilmente en el teclado QWERTY normal - ert + fgh + edc + tgb), lo más probable es que no obtenga nada de Google (actualmente no lo hago). Simplemente no era lo suficientemente común como para que alguien coloque esto en sus mapas de sitio (o no es lo suficientemente común como para que los motores de búsqueda lo indexen).

+4

agregando ertfghedctgb a esta respuesta esa palabra se convertirá en un resultado de google dentro de unas horas – SinistraD

+1

@SinistraD :) buena observación! –

+1

Ahora es un resultado de búsqueda :) – nathanjosiah

1

Todos los navegadores y rastreadores envían algo llamado cadena HTTP_USER_AGENT al servidor web cada vez que se solicita, a menos que el software no lo agregue a propósito. Esta cadena identifica qué navegador se utiliza, qué versión es, motor de renderizado y algunos detalles más. (Consulte http://en.wikipedia.org/wiki/User_agent)

El servidor web puede leer HTTP_USER_AGENT y cambiar el contenido servido. Por ejemplo, se usa como parte de la detección de si está en un dispositivo portátil o en una pantalla grande, en cuyo caso es posible que desee un diseño diferente de la página web dada.

Las personas invierten mucho dinero para atraer tráfico a sus sitios, especialmente a través de los grandes motores de búsqueda como Google y Bing. El término SEO, que significa optimización de motores de búsqueda, es una técnica en la que el propietario de la página web optimiza su contenido para facilitar que los motores de búsqueda brinden éxitos relevantes. Si tiene un sitio complejo que utiliza muchos JavaScript y Ajax, es posible que desee enviar una página estática a los motores de búsqueda para que puedan leer su contenido.

Los sitios maliciosos a veces ofrecen contenido optimizado SEO optimizado automáticamente a los motores de búsqueda para obtener un alto puntaje en las búsquedas pero entregando a los usuarios humanos una página simple con anuncios en lugar de generar ingresos.

Esta respuesta se proporciona como una alternativa a una respuesta donde el contenido dinámico normal, como ya se describió por icyrock-com, es la causa de obtener otra página de la que indica Google.

Cuestiones relacionadas