¿Alguien ha tenido suerte escribiendo indexadores personalizados para nutch para indexar los resultados de rastreo con elasticsearch? ¿O conoces alguno que ya exista?¿Ha indexado los resultados de rastreo nutch usando elasticsearch anteriormente?
Respuesta
No lo he hecho, pero esto es definitivamente factible pero requeriría utilizar el código SOLR (src/java/org/apache/nutch/indexer/solr) y adaptarlo a ElasticSearch. Sería un buen contrib a Nutch BTW
Sé que Nutch agregará backends conectables y me alegra verlo. Tuve la necesidad de integrar elasticsearch con Nutch 1.3. El código se publica aquí. Incluido en el código (src/java/org/apache/nutch/indexer/solr).
Soy nuevo en Java, así que no sé cómo crear un paquete en Ubuntu y luego reconstruirlo. He instalado nutch en la ubicación/home/peter/nutch/así que no sé dónde copiar los archivos de hiedra y java. ¿Qué configuraciones deben agregarse a los archivos de hiedra? – peter
escribí un plugin Elasticsearch que se burla de la API de Solr. Con este complemento y el indexador Nutch Solr estándar, puede enviar datos rastreados fácilmente a ElasticSearch. Plugin y un ejemplo de cómo usarlo con Nutch se pueden encontrar en GitHub:
El tiempo pasa y ahora Nucth ya está integrado bien con Elasticsearch. Here es un buen tutorial.
- 1. ElasticSearch resultados duplicados con paginación
- 2. ¿Distancia de retorno en los resultados de elasticsearch?
- 3. Nutch API advice
- 4. se arrastra usando Nutch ... Muestra una IOException
- 5. Eliminar/Eliminar un documento indexado en ElasticSearch con Tire (con eliminación suave a través de ActsAsParanoid)
- 6. ElasticSearch facet results without document
- 7. Cómo controlar elasticsearch usando nagios
- 8. Rastreo de funciones usando flujo óptico
- 9. ¿Puede Lucene devolver varios resultados de búsqueda de un solo archivo indexado?
- 10. Teradata: limitando los resultados usando TOP
- 11. Usando SUM() sin agrupar los resultados
- 12. Nutch versus Solr
- 13. Conseguir todos los resultados usando cláusula where
- 14. Nutch no rastrea todos los eslabones de forma
- 15. Usando SO_REUSEADDR - ¿Qué sucede con el socket abierto anteriormente?
- 16. ElasticSearch Stemming
- 17. Elasticsearch con el analizador de bola de nieve sólo devuelve resultados de la palabra de tallo
- 18. Rastreo de rastreo para un determinado puerto
- 19. Nutch-Cygwin Cómo configurar JAVA_HOME
- 20. Límites prácticos de ElasticSearch + Cassandra
- 21. Orden de control de los filtros de tokens en ElasticSearch
- 22. Git Error de SVN: un proceso de Git se ha bloqueado en el repositorio anteriormente
- 23. ¿Cuáles son los pros y los contras de Solr & ElasticSearch?
- 24. Configuración de borrosidad en ElasticSearch
- 25. Nutch: datos leídos y adición de metadatos
- 26. Elasticsearch actuaciones esperables
- 27. javascript array Y asociativo indexado?
- 28. Calcular distancia geográfica en elasticsearch
- 29. Playframework + Morphia + MongoDb + ElasticSearch = Disater?
- 30. cómo aumentar los resultados de búsqueda alexa usando Alexa API
Ese es el enfoque que he tomado. También escribí mi propio indexador elástico y mi propio proceso de rastreo. – neildf