2008-11-12 8 views

Respuesta

11

En mi opinión, esto es un agujero bastante significativa que es manteniendo la adopción generalizada de Solr. El nuevo DataImportHandler es un buen primer paso para importar datos estructurados, pero no hay un buen inventario de ingestión de documentos para Solr. Nutch funciona, pero la integración entre Nutch crawler y Solr es algo torpe.
He intentado todos los rastreadores de código abierto que puedo encontrar, y ninguno de ellos se integra desde el primer momento con Solr.
Manténgase atento a OpenPipeline y Apache Tika.

4

sugiero que echa un vistazo Nutch para conseguir un poco de inspiración:

Nutch es de código abierto de software web de búsqueda. Se basa en Lucene Java, añadiendo web específicos, tales como una oruga, una base de datos de enlace gráfico, programas de análisis de HTML y otros formatos de documentos, etc.

4

También revise los Droids de Apache [http://incubator.apache.org/droids/] - esto espera no ser un simple framework spider/crawler/worker.

Es nuevo y todavía no es fácil de usar en la estantería (llevará algo de tweeking ponerlo en funcionamiento), pero es algo bueno que debe vigilar.

2

Nutch podría ser su pareja más cercana, pero no es demasiado flexible.

Si necesita algo más, tendrá que hackear prácticamente su propio rastreador. No es tan malo como suena, cada idioma tiene bibliotecas web, por lo que solo necesita conectar un gestor de colas de tareas con el descargador HTTP y el analizador HTML, en realidad no es tanto trabajo. Lo más probable es que se salga con la suya con una sola caja, ya que el rastreo es principalmente intencionado con el ancho de banda, no requiere mucho uso de la CPU.

6

He intentado nutch, pero fue muy difícil de integrar con Solr. Yo echaría un vistazo a Heritrix. Tiene un extenso sistema de complementos para que sea fácil de integrar con Solr, y es mucho más rápido para gatear. Hace un uso extensivo de hilos para acelerar el proceso.

0

¿Alguien ha intentado con Xapian? Se ve mucho más rápido que solr y está escrito en C++.

Cuestiones relacionadas