2012-05-27 15 views
5

Recientemente comencé a buscar apache nutch. Podría hacer la configuración y poder rastrear páginas web de mi interés con nutch. No entiendo muy bien cómo leer estos datos. Básicamente, quiero asociar los datos de cada página con algunos metadatos (algunos datos aleatorios por ahora) y almacenarlos localmente, que luego serán utilizados para la búsqueda (semántica). ¿Debo usar solr o lucene para lo mismo? Soy nuevo en todo esto. Hasta donde sé, Nutch se usa para rastrear páginas web. ¿Puede hacer algunas funciones adicionales, como agregar metadatos a los datos rastreados?Nutch: datos leídos y adición de metadatos

+0

Hola CRS, ya que se ha insertado en cuestión con 'web semántica' Asumo que desea extraer algunos datos estructurados de las páginas que desea rastrear (ya sea microformatos, RDFa y/o Microdata). Si este es el caso, ahorrará mucho tiempo mirar Any23 (http://incubator.apache.org/any23/) (que podría estar integrado con Nutch y probablemente alguien ya esté tratando de hacerlo o lo haya hecho ya) – castagna

+0

Gracias por la respuesta. Voy a echar un vistazo a Any23. De hecho, estoy rastreando páginas web "normales". No está asociado con ningún metadato. Tenemos un algoritmo que calcula los metadatos del texto de estas páginas web. Estos metadatos deben agregarse a la copia local de la página web. Así que estoy buscando un rastreador que rastree las páginas web y extraiga los contenidos y luego inserte los metadatos en la copia local de las páginas web. – CRS

Respuesta

3

Comandos útiles.

Empezar rastreo

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

obtener estadísticas de

bin/nutch readdb crawl/crawldb -stats 

segmento Leer arrastrado de URL (se lleva todos los datos de las páginas web)

bin/nutch readseg -dump crawl/segments/* segmentAllContent 

segmento de lectura (sólo recibe el texto campo)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata 

Obtenga toda la lista de enlaces conocidos a cada URL, incluidos tanto la URL de origen como el texto de enlace del enlace.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent 

Obtener todas las URL rastreadas. También da otra información como si se fue a buscar, tiempo exagerado, hora de modificación etc.

bin/nutch readdb crawl/crawldb/ -dump crawlContent 

Para la segunda parte. es decir, para agregar un nuevo campo. Estoy planeando usar el complemento index-extra o para escribir un plugin personalizado.

Consulte:

this y this

Cuestiones relacionadas