2009-07-20 17 views
5

¿Hay alguna forma de detectar motores de búsqueda o rastreadores en mi sitio? he visto en phpBB en el administrador podemos ver y permitir los motores de búsqueda y también podemos ver la última visita del bot (como Google Bot).cómo detectar las visitas al motor de búsqueda en mi sitio? como phpBB

guión en PHP? No Google Analytic o el mismo tipo de aplicación. necesito implementar eso para mi blog, creo que hay alguna forma de averiguarlo?

Respuesta

10

Puede ir por las direcciones IP o la cadena 'User-Agent' que el bot o el navegador web le envía.

Cuando el robot de Google (o la mayoría de los otros robots con buen comportamiento) visita su sitio web, le enviarán una variable $ _SERVER ['HTTP_USER_AGENT'] que identifica cuáles son. Algunos ejemplos son:

Googlebot/2,1 (+ http://www.google.com/bot.html)

NutchCVS/0,8-dev (Nutch; http://lucene.apache.org/nutch/bot.html

Baiduspider + (+ http://www.baidu.com/search/spider_jp.html)

Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/531.4 (KHTML, like Gecko)

Usted puede encontrar muchos más ejemplos en estos sitios web: link text link text

Puede utilizar PHP para examinar las cadenas de agente de usuario y determinar si el usuario es un motor de búsqueda o no. Utilizo algo como esto a menudo:

$searchengines = array(
    'Googlebot', 
    'Slurp', 
    'search.msn.com', 
    'nutch', 
    'simpy', 
    'bot', 
    'ASPSeek', 
    'crawler', 
    'msnbot', 
    'Libwww-perl', 
    'FAST', 
    'Baidu', 
    ); 
$is_se = false; 
foreach ($searchengines as $searchengine){ 
    if (!empty($_SERVER['HTTP_USER_AGENT']) and 
      false !== strpos(strtolower($_SERVER['HTTP_USER_AGENT']), strtolower($searchengine))) 
    { 
      $is_se = true; 
      break; 
    } 
} 
if ($is_se) { print('Its a search engine!'); } 

recordar que ningún método de detección (Google Analytics o otro paquete de estadísticas o de otra manera) va a ser fiable al 100%. Algunos navegadores web le permiten establecer una cadena personalizada de agente de usuario, y algunos rastreadores web que no funcionan bien pueden no enviar ninguna cadena de agente de usuario. Sin embargo, este método puede ser efectivo para el 95% de los rastreadores/visitantes.

+0

Creo que esto estaba buscando ... – coderex

0

Alternativas a Google Analytics, que le permiten mantener sus datos:

Piwik se implementa en PHP y funciona de la misma manera que GA . Los otros dos son analizadores de registro del servidor web.

-2

Google Analytics le permitirá ver las estadísticas de rastreo de su sitio.

5
  1. Puede intentar detectarlos utilizando su cadena de agente de usuario. Una lista de ellos se puede encontrar aquí: http://www.botsvsbrowsers.com/

    Los motores de búsqueda tienden a utilizar las palabras orugas y robot.

  2. Los motores de búsqueda son casi el único usuario de Internet que visita robots.txt.

  3. Hay algunas IP conocidas como bots como GoogleBot.

Cuestiones relacionadas