2009-06-26 19 views
10

¿Alguien puede recomendar un buen libro (s)/papel (s)/artículo (s) en la búsqueda de texto completo (y tal vez la indexación en general). Soy bastante anal sobre tener que entender qué está sucediendo entre bastidores en mis aplicaciones, y tengo problemas para entender por qué Sphinx y otros FTS externos dejan a MySQL/MyISAM en el polvo.Imprimación de búsqueda de texto completo?

Respuesta

2

Comenzaría con this. Es para SQL Server, pero una lectura no va a doler, ya que muchos conceptos diferentes a los de implementación serán (muy probablemente) los mismos en los DB.

3

Encontré la página de búsqueda de texto completo de postgres http://www.postgresql.org/docs/8.3/static/textsearch.html muy esclarecedor.

Especialmente: http://www.postgresql.org/docs/8.3/static/textsearch-intro.html

operadores Pruebas de búsqueda en bases de datos han existido durante años. PostgreSQL tiene ~, ~ *, operadores similares, y ILIKE para tipos de datos textual, pero carecen de muchas de las propiedades esenciales requeridos por los modernos sistemas de información:

  • no hay apoyo lingüístico, incluso de Inglés. Las expresiones regulares son no suficientes porque no pueden manejar fácilmente palabras derivadas, por ejemplo, satisface y satisface. Es posible que se pierda los documentos que contengan satisfies, , aunque es probable que desee encuéntrelos cuando busque satisfacer. Es posible utilizar O para buscar para múltiples formularios derivados, pero este es tedioso y propenso a errores (algunas palabras pueden tener varios miles de derivados ).
  • No proporcionan ningún orden (clasificación) de resultados de búsqueda, lo que los hace ineficaz cuando se encuentran miles de documentos coincidentes.
  • Tienden a ser lentos porque hay sin soporte de índice, por lo que deben procesar todos los documentos para cada búsqueda de .
3

Hay un excelente libro gratis Recuperación de Información (Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze, Introducción a la Recuperación de Información, Cambridge University Press. 2008), incluyendo la búsqueda de texto, disponible gratuitamente (legit) here.

Cuestiones relacionadas