2010-05-12 19 views
7

Actualmente recogiendo información donde debería usar Nutch con Solr (dominio - búsqueda web vertical).Nutch versus Solr

¿Podría sugerirme?

Respuesta

14

Nutch es un framework para construir rastreadores web y motores de búsqueda. Nutch puede hacer todo el proceso desde la recopilación de páginas web hasta la construcción del índice invertido. También puede impulsar esos índices a Solr.

Solr es principalmente un motor de búsqueda con soporte para búsquedas con facetas y muchas otras funciones útiles. Pero Solr no busca los datos, tienes que alimentarlos.

Así que tal vez lo primero que debe preguntar para elegir entre los dos es si tiene o no los datos para indexar ya disponibles (en XML, en un CMS o en una base de datos). En ese caso, probablemente solo deberías usar Solr y darle esos datos. Por otro lado, si tiene que buscar los datos de la web, es probable que sea mejor con Nutch.

+0

Tengo que buscar los datos de la web, pero de una manera más sofisticada que el rastreador de Nutch. Y como sé, es muy difícil modificar el rastreador de Nutch (por ejemplo, para ignorar robots.txt, detectar js-redirects, etc.). Mi elección es Solr? ¿Qué Solr puede ese Nutch no puede? – Jeriho

+1

Como dije, Solr es un motor de búsqueda. No hay nada dentro para rastrear la web. Pero si tiene un rastreador propio que funciona bien para usted, debería ser fácil enviar los datos a Solr. –