2011-10-17 26 views
12

Necesito proporcionar una búsqueda de texto completo en los archivos fuente de JavaScript y resaltar los resultados.Cómo indexar el código fuente con ElasticSearch

Mi pregunta es ¿qué combinación de tokenizadores y analizadores ElasticSearch existentes sería la mejor para esto?

Respuesta

5

Pregunta interesante pero no conozco una solución lista para usar. Puede usar un tokenizer WordDelimiter como puede especificar, p. el guión bajo que se maneja como un dígito y luego funciona como hello_world (o helloWorld si se habilita camelcase) se podrá buscar a través de hello o world.

Pero dudo que los resultados son suficientes ... y usted tendrá que aplicar un código which extracts the syntax treesource code analyzer yourself o el uso de nombres y cuerpos de los métodos índice en diferentes campos

+0

Como desarrollador de un código fuente de búsqueda, ¿realmente desea encontrar hello_world o helloWorld con solo "hola" o simplemente "mundo"? En nuestro caso, al menos, tenemos una búsqueda elástica para todos nuestros repositorios de código, y generalmente buscamos una ortografía específica de un método específico para todos ellos, por ejemplo, al actualizar nuestro marco central que todos usan. –

0

A menos que usted desea exponer esto como un servicio a alguien, le recomendaría que instale el complemento InstaSearch en eclipse; este plugin crea el índice de Lucense y te da resultados instantáneos.

1

Puede usar el attachment type plugin para cargar los archivos en Elasticsearch y dejar que indexe los archivos. Puede manejar metadatos para los archivos e indexar el contenido de los archivos.

El github page incluye información sobre cómo resaltar los documentos de búsqueda.

Cuestiones relacionadas