¿Solr rastrea la web?

9

Solr no tiene en sí mismo una función de rastreo web.

Nutch es el rastreador "de facto" (y algo más) de Solr.

2009-11-23 05:30:13 mjv

20

Solr 5+ ¡De hecho, ahora se rastrea la Web! http://lucene.apache.org/solr/

Las versiones anteriores de Solr no hacen el rastreo web solo, ya que históricamente es un servidor de búsqueda que proporciona capacidades de búsqueda de texto completo. Se construye encima de Lucene.

Si necesita rastrear páginas web utilizando otro proyecto Solr entonces usted tiene una serie de opciones que incluyen:

Nutch - http://lucene.apache.org/nutch/
Websphinx - http://www.cs.cmu.edu/~rcm/websphinx/
JSpider - http://j-spider.sourceforge.net/
Heritrix - http://crawler.archive.org/

Si Si desea utilizar los recursos de búsqueda proporcionados por Lucene o SOLR, deberá crear índices a partir de los resultados del rastreo web.

ver este también:

Lucene crawler (it needs to build lucene index)

Fuente

2009-11-23 05:35:59 Jon

+5

¿Puede profundizar en «Solr 5+ HACE, de hecho, ahora rastrear en la Web»? No vi ninguna función de rastreo en toda la documentación. – taharqa

0

Def Nutch! Nutch también tiene una interfaz web básica que le permitirá consultar los resultados de búsqueda. Puede que ni siquiera necesite preocuparse por SOLR según sus requisitos. Si hace una combinación Nutch/SOLR, debería poder aprovechar el trabajo reciente realizado para integrar SOLR y Nutch ... http://issues.apache.org/jira/browse/NUTCH-442

Fuente

2009-11-23 05:45:59 wmitchell

1

He estado utilizando Nutch con Solr en mi último proyecto y parece funcionar bastante bien.

Si está utilizando una máquina con Windows, le recomiendo seguir las instrucciones 'No cygwin' de Jason Riffel también.

Fuente

2010-12-31 09:44:00

1

Sí, estoy de acuerdo con las otras críticas aquí, utilice nutch

bin/Nutch URL de rastreo -solr http://localhost:8983/solr/ -depth 3 -topN 5

Aunque la versión de Solr tiene el partido la versión correcta de Nutch, porque las versiones anteriores de Solr almacena los índices en un formato diferente

Su tutorial: http://wiki.apache.org/nutch/NutchTutorial

Fuente

2011-09-30 14:23:00 Joyce

2

También puede ser que desee echar un vistazo a

http://www.crawl-anywhere.com/

Muy potente rastreador que es compatible con Solr.

Fuente

2011-10-02 15:05:43

1

sé que ha pasado un tiempo, pero en caso de que alguien está buscando un rastreador Solr como yo, hay un nuevo rastreador de código abierto llamado Norconex HTTP Collector

Fuente

2015-05-14 17:27:48 Loransian

3

Solr 5 comenzó a apoyar webcrawling sencilla (Java Doc). Si quieres buscar, Solr es la herramienta, si quieres rastrear, Nutch/Scrapy es mejor :)

Para ponerlo en funcionamiento, puedes echarle un vistazo detallado al here. Sin embargo, aquí es cómo conseguirlo en funcionamiento en una línea:

java 
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar 
-Dauto=yes 
-Dc=gettingstarted  -> collection: gettingstarted 
-Ddata=web    -> web crawling and indexing 
-Drecursive=3   -> go 3 levels deep 
-Ddelay=0    -> for the impatient use 10+ for production 
org.apache.solr.util.SimplePostTool -> SimplePostTool 
http://datafireball.com/  -> a testing wordpress blog

El rastreador aquí es muy "ingenua", donde se puede encontrar todo el código de la cesión temporal de github this Apache Solr.

Aquí es cómo la respuesta se parece a:

SimplePostTool version 5.0.0 
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract 
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked 
Entering recursive mode, depth=3, delay=0s 
Entering crawl at level 0 (1 links total, 1 new) 
POSTed web resource http://datafireball.com (depth: 0) 
Entering crawl at level 1 (52 links total, 51 new) 
POSTed web resource http://datafireball.com/2015/06 (depth: 1) 
... 
Entering crawl at level 2 (266 links total, 215 new) 
... 
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2) 
... 
Entering crawl at level 3 (846 links total, 656 new) 
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3) 
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302 
423 web pages indexed. 
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract... 
Time spent: 0:05:55.059

Al final, se puede ver todos los datos se indexan correctamente.

Fuente

2016-02-20 16:44:35

¿Solr rastrea la web?

Respuesta

Cuestiones relacionadas