Sé que lucene crea un índice y almacena todos los datos. ¿Puede alguien decirme cómo se almacenan los datos en un archivo plano? o qué tipo de algoritmo utilizan para almacenar los datos en el back-end para que puedan recuperarlo rápidamente?Cómo se almacenan los datos en lucene
Respuesta
Usted puede leer este libro http://nlp.stanford.edu/IR-book/ saber acerca de las estructuras de datos, algoritmos y modelos utilizados en los sistemas de recuperación de información
puede encontrar todo lo que explican en la sección file formats.
No sé si esto es lo que solicitó. Pero la respuesta más general es que usan/implementan un Inverted Index. Los detalles de cómo lo almacena Lucene se pueden encontrar en file formats (como dijo milan).
Pero la idea general es que almacenan una estructura de datos de Índice Invertido y otras estructuras de datos auxiliares para ayudar a responder las consultas rápidamente. Por ejemplo, almacena un vector de normas para cada documento y el IDF de cada término (inverse document frequency). Lucene también almacena los campos de documentos reales, pero eso está fuera del índice invertido.
- 1. Cómo se almacenan los datos en un archivo de imagen
- 2. ¿Cómo se almacenan los datos en el servidor SQL?
- 3. ¿Cómo se almacenan los NULL en una base de datos?
- 4. ¿Cómo se almacenan físicamente los datos de HTML5 WebStorage?
- 5. ¿De qué manera se almacenan los datos en * .npy?
- 6. ¿Cómo se almacenan los datos en una base de datos MongoDB en el disco?
- 7. ¿Dónde se almacenan los datos enviados por UDP?
- 8. ¿Dónde se almacenan los "Certificados" en Firefox?
- 9. ¿Dónde se almacenan los datos en las bases de datos incrustadas de H2?
- 10. ¿Cómo se almacenan los objetos Java en HttpSession?
- 11. ¿En qué formato se almacenan los contactos en android?
- 12. ¿Cómo se almacenan los objetos de valor en la base de datos?
- 13. Pregunta sobre cómo se almacenan los datos de claves externas en SQL
- 14. ¿Cómo se almacenan los datos comprimidos en la memoria caché del búfer, comprimidos o sin comprimir?
- 15. ¿Cómo se almacenan los números de teléfonos celulares en una base de datos?
- 16. ¿Dónde se almacenan los ivars sintetizados?
- 17. ¿Dónde se almacenan los archivos evtx archivados?
- 18. ¿Dónde se almacenan los módulos de python?
- 19. ¿Dónde se almacenan los objetos temporales?
- 20. ¿Dónde se almacenan los mensajes flash?
- 21. ¿Dónde se almacenan los metadatos del puntero?
- 22. ¿Cómo cambiar dónde se almacenan los repositorios de Subversion?
- 23. ¿Cómo se almacenan los índices secundarios 0,7 de Cassandra?
- 24. ¿Cómo se almacenan los miembros de la unión?
- 25. ¿Dónde se almacenan los bloques CMS estáticos de Magento?
- 26. ¿Dónde se almacenan los volcados centrales en Mac?
- 27. Map-Navigation Project, ¿cómo se almacenan/representan generalmente los datos de carreteras?
- 28. ¿Dónde se almacenan las macros?
- 29. En un pequeño ejemplo, ¿cómo se almacenan los datos en sram inicializados cuando se enciende el microcontrolador?
- 30. Lucene como almacén de datos
Es un buen libro de nivel de entrada, pero es un poco no relevante para este problema, sigue siendo una buena referencia. – linjunhalida
También hay otro gran libro de recuperación de información que ofrece contenido gratis ahora: https://ciir.cs.umass.edu/irbook/ – realjin