Estoy interesado en rastrear sitios web. Estaba mirando solr
.¿Solr rastrea la web?
¿solr
realiza el rastreo web o cuáles son los pasos para realizar el rastreo web?
Estoy interesado en rastrear sitios web. Estaba mirando solr
.¿Solr rastrea la web?
¿solr
realiza el rastreo web o cuáles son los pasos para realizar el rastreo web?
Solr no tiene en sí mismo una función de rastreo web.
Nutch es el rastreador "de facto" (y algo más) de Solr.
Solr 5+ ¡De hecho, ahora se rastrea la Web! http://lucene.apache.org/solr/
Las versiones anteriores de Solr no hacen el rastreo web solo, ya que históricamente es un servidor de búsqueda que proporciona capacidades de búsqueda de texto completo. Se construye encima de Lucene.
Si necesita rastrear páginas web utilizando otro proyecto Solr entonces usted tiene una serie de opciones que incluyen:
Si Si desea utilizar los recursos de búsqueda proporcionados por Lucene o SOLR, deberá crear índices a partir de los resultados del rastreo web.
ver este también:
Def Nutch! Nutch también tiene una interfaz web básica que le permitirá consultar los resultados de búsqueda. Puede que ni siquiera necesite preocuparse por SOLR según sus requisitos. Si hace una combinación Nutch/SOLR, debería poder aprovechar el trabajo reciente realizado para integrar SOLR y Nutch ... http://issues.apache.org/jira/browse/NUTCH-442
He estado utilizando Nutch con Solr en mi último proyecto y parece funcionar bastante bien.
Si está utilizando una máquina con Windows, le recomiendo seguir las instrucciones 'No cygwin' de Jason Riffel también.
Sí, estoy de acuerdo con las otras críticas aquí, utilice nutch
bin/Nutch URL de rastreo -solr http://localhost:8983/solr/ -depth 3 -topN 5
Aunque la versión de Solr tiene el partido la versión correcta de Nutch, porque las versiones anteriores de Solr almacena los índices en un formato diferente
Su tutorial: http://wiki.apache.org/nutch/NutchTutorial
También puede ser que desee echar un vistazo a
http://www.crawl-anywhere.com/
Muy potente rastreador que es compatible con Solr.
sé que ha pasado un tiempo, pero en caso de que alguien está buscando un rastreador Solr como yo, hay un nuevo rastreador de código abierto llamado Norconex HTTP Collector
Solr 5 comenzó a apoyar webcrawling sencilla (Java Doc). Si quieres buscar, Solr es la herramienta, si quieres rastrear, Nutch/Scrapy es mejor :)
Para ponerlo en funcionamiento, puedes echarle un vistazo detallado al here. Sin embargo, aquí es cómo conseguirlo en funcionamiento en una línea:
java
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar
-Dauto=yes
-Dc=gettingstarted -> collection: gettingstarted
-Ddata=web -> web crawling and indexing
-Drecursive=3 -> go 3 levels deep
-Ddelay=0 -> for the impatient use 10+ for production
org.apache.solr.util.SimplePostTool -> SimplePostTool
http://datafireball.com/ -> a testing wordpress blog
El rastreador aquí es muy "ingenua", donde se puede encontrar todo el código de la cesión temporal de github this Apache Solr.
Aquí es cómo la respuesta se parece a:
SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059
Al final, se puede ver todos los datos se indexan correctamente.
¿Puede profundizar en «Solr 5+ HACE, de hecho, ahora rastrear en la Web»? No vi ninguna función de rastreo en toda la documentación. – taharqa