Nutch: datos leídos y adición de metadatos

Recientemente comencé a buscar apache nutch. Podría hacer la configuración y poder rastrear páginas web de mi interés con nutch. No entiendo muy bien cómo leer estos datos. Básicamente, quiero asociar los datos de cada página con algunos metadatos (algunos datos aleatorios por ahora) y almacenarlos localmente, que luego serán utilizados para la búsqueda (semántica). ¿Debo usar solr o lucene para lo mismo? Soy nuevo en todo esto. Hasta donde sé, Nutch se usa para rastrear páginas web. ¿Puede hacer algunas funciones adicionales, como agregar metadatos a los datos rastreados?Nutch: datos leídos y adición de metadatos

Fuente

2012-05-27 CRS

Hola CRS, ya que se ha insertado en cuestión con 'web semántica' Asumo que desea extraer algunos datos estructurados de las páginas que desea rastrear (ya sea microformatos, RDFa y/o Microdata). Si este es el caso, ahorrará mucho tiempo mirar Any23 (http://incubator.apache.org/any23/) (que podría estar integrado con Nutch y probablemente alguien ya esté tratando de hacerlo o lo haya hecho ya) – castagna

Gracias por la respuesta. Voy a echar un vistazo a Any23. De hecho, estoy rastreando páginas web "normales". No está asociado con ningún metadato. Tenemos un algoritmo que calcula los metadatos del texto de estas páginas web. Estos metadatos deben agregarse a la copia local de la página web. Así que estoy buscando un rastreador que rastree las páginas web y extraiga los contenidos y luego inserte los metadatos en la copia local de las páginas web. – CRS

Comandos útiles.

Empezar rastreo

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

obtener estadísticas de

bin/nutch readdb crawl/crawldb -stats

segmento Leer arrastrado de URL (se lleva todos los datos de las páginas web)

bin/nutch readseg -dump crawl/segments/* segmentAllContent

segmento de lectura (sólo recibe el texto campo)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata

Obtenga toda la lista de enlaces conocidos a cada URL, incluidos tanto la URL de origen como el texto de enlace del enlace.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

Obtener todas las URL rastreadas. También da otra información como si se fue a buscar, tiempo exagerado, hora de modificación etc.

bin/nutch readdb crawl/crawldb/ -dump crawlContent

Para la segunda parte. es decir, para agregar un nuevo campo. Estoy planeando usar el complemento index-extra o para escribir un plugin personalizado.

Consulte:

this y this

Fuente

2012-05-29 06:47:34 CRS

Nutch: datos leídos y adición de metadatos

Respuesta

Cuestiones relacionadas