Tengo un archivo de índice Solr/Lucene de aproximadamente 700 Gb. Los documentos que necesito para indexar se leen en tiempo real, aproximadamente 1000 documentos cada 30 minutos se envían y deben ser indexados. En mi escenario, se ejecuta un script cada 30 minutos que indexa los documentos que aún no están indexados, ya que es un requisito que los nuevos documentos se puedan buscar lo antes posible, pero este proceso ralentiza la búsqueda.¿La mejor manera de mantener el índice en tiempo real?
¿Es esta la mejor manera en que puedo indexar los últimos documentos o hay alguna otra manera mejor!
Actualización: Solr ahora tiene (casi) capacidades de búsqueda en tiempo real. – mt3
@ mt3 enlace para más información? – Simon
@Simon Lo siento por la respuesta tardía. Está en el tronco de la rama Solr/Lucene. http://wiki.apache.org/solr/NearRealtimeSearch – mt3