2009-11-23 13 views
15

Estoy interesado en rastrear sitios web. Estaba mirando solr.¿Solr rastrea la web?

¿solr realiza el rastreo web o cuáles son los pasos para realizar el rastreo web?

Respuesta

9

Solr no tiene en sí mismo una función de rastreo web.

Nutch es el rastreador "de facto" (y algo más) de Solr.

20

Solr 5+ ¡De hecho, ahora se rastrea la Web! http://lucene.apache.org/solr/

Las versiones anteriores de Solr no hacen el rastreo web solo, ya que históricamente es un servidor de búsqueda que proporciona capacidades de búsqueda de texto completo. Se construye encima de Lucene.

Si necesita rastrear páginas web utilizando otro proyecto Solr entonces usted tiene una serie de opciones que incluyen:

Si Si desea utilizar los recursos de búsqueda proporcionados por Lucene o SOLR, deberá crear índices a partir de los resultados del rastreo web.

ver este también:

Lucene crawler (it needs to build lucene index)

+5

¿Puede profundizar en «Solr 5+ HACE, de hecho, ahora rastrear en la Web»? No vi ninguna función de rastreo en toda la documentación. – taharqa

0

Def Nutch! Nutch también tiene una interfaz web básica que le permitirá consultar los resultados de búsqueda. Puede que ni siquiera necesite preocuparse por SOLR según sus requisitos. Si hace una combinación Nutch/SOLR, debería poder aprovechar el trabajo reciente realizado para integrar SOLR y Nutch ... http://issues.apache.org/jira/browse/NUTCH-442

1

He estado utilizando Nutch con Solr en mi último proyecto y parece funcionar bastante bien.

Si está utilizando una máquina con Windows, le recomiendo seguir las instrucciones 'No cygwin' de Jason Riffel también.

1

sé que ha pasado un tiempo, pero en caso de que alguien está buscando un rastreador Solr como yo, hay un nuevo rastreador de código abierto llamado Norconex HTTP Collector

3

Solr 5 comenzó a apoyar webcrawling sencilla (Java Doc). Si quieres buscar, Solr es la herramienta, si quieres rastrear, Nutch/Scrapy es mejor :)

Para ponerlo en funcionamiento, puedes echarle un vistazo detallado al here. Sin embargo, aquí es cómo conseguirlo en funcionamiento en una línea:

java 
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar 
-Dauto=yes 
-Dc=gettingstarted  -> collection: gettingstarted 
-Ddata=web    -> web crawling and indexing 
-Drecursive=3   -> go 3 levels deep 
-Ddelay=0    -> for the impatient use 10+ for production 
org.apache.solr.util.SimplePostTool -> SimplePostTool 
http://datafireball.com/  -> a testing wordpress blog 

El rastreador aquí es muy "ingenua", donde se puede encontrar todo el código de la cesión temporal de github this Apache Solr.

Aquí es cómo la respuesta se parece a:

SimplePostTool version 5.0.0 
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract 
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked 
Entering recursive mode, depth=3, delay=0s 
Entering crawl at level 0 (1 links total, 1 new) 
POSTed web resource http://datafireball.com (depth: 0) 
Entering crawl at level 1 (52 links total, 51 new) 
POSTed web resource http://datafireball.com/2015/06 (depth: 1) 
... 
Entering crawl at level 2 (266 links total, 215 new) 
... 
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2) 
... 
Entering crawl at level 3 (846 links total, 656 new) 
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3) 
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302 
423 web pages indexed. 
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract... 
Time spent: 0:05:55.059 

Al final, se puede ver todos los datos se indexan correctamente. enter image description here