Puede ir por las direcciones IP o la cadena 'User-Agent' que el bot o el navegador web le envía.
Cuando el robot de Google (o la mayoría de los otros robots con buen comportamiento) visita su sitio web, le enviarán una variable $ _SERVER ['HTTP_USER_AGENT'] que identifica cuáles son. Algunos ejemplos son:
Googlebot/2,1 (+ http://www.google.com/bot.html)
NutchCVS/0,8-dev (Nutch; http://lucene.apache.org/nutch/bot.html
Baiduspider + (+ http://www.baidu.com/search/spider_jp.html)
Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/531.4 (KHTML, like Gecko)
Usted puede encontrar muchos más ejemplos en estos sitios web: link text link text
Puede utilizar PHP para examinar las cadenas de agente de usuario y determinar si el usuario es un motor de búsqueda o no. Utilizo algo como esto a menudo:
$searchengines = array(
'Googlebot',
'Slurp',
'search.msn.com',
'nutch',
'simpy',
'bot',
'ASPSeek',
'crawler',
'msnbot',
'Libwww-perl',
'FAST',
'Baidu',
);
$is_se = false;
foreach ($searchengines as $searchengine){
if (!empty($_SERVER['HTTP_USER_AGENT']) and
false !== strpos(strtolower($_SERVER['HTTP_USER_AGENT']), strtolower($searchengine)))
{
$is_se = true;
break;
}
}
if ($is_se) { print('Its a search engine!'); }
recordar que ningún método de detección (Google Analytics o otro paquete de estadísticas o de otra manera) va a ser fiable al 100%. Algunos navegadores web le permiten establecer una cadena personalizada de agente de usuario, y algunos rastreadores web que no funcionan bien pueden no enviar ninguna cadena de agente de usuario. Sin embargo, este método puede ser efectivo para el 95% de los rastreadores/visitantes.
Creo que esto estaba buscando ... – coderex