2012-06-25 10 views

Respuesta

23

difieren en la forma en que se reparten el texto analizado en tokens.

El StandardTokenizer hace esto en base a los siguientes (tomado de javadoc Lucene):

palabras
  • Divisiones por signos de puntuación, la eliminación de puntuacion. Sin embargo, un punto que no es seguido por espacios en blanco se considera parte de un token.
  • Divide palabras en guiones, a menos que haya un número en el token , en cuyo caso el token completo se interpreta como un número de producto y no se divide.
  • reconoce las direcciones de correo electrónico y de Internet nombres de host como una ficha.

El WhitespaceTokenizer hace esto basado en los espacios en blanco:

Un WhitespaceTokenizer es un señalizador que divide el texto en el espacio en blanco. Las secuencias adyacentes de caracteres que no son espacios en blanco forman tokens.

Usted debe escoger la tokenizer que mejor se adapte a su aplicación. ¡En cualquier caso, debe usar el mismo analizador/tokenizador para indexar y buscar!

+0

Gracias csupnig! Cuando dices "usar el mismo analizador/tokenizador" para indexar y buscar, querías decir que el analizador debe coincidir con el tipo de tokenizador que se está usando, ¿verdad? – trillions

+2

Sí, deberían hacer lo mismo para producir tokens similares. Solo hay casos excepcionales en los que desee tokenizadores diferentes en el analizador de consultas que los tokenizadores que utilizó durante la indexación. Gracias :) – csupnig

+0

csupnig – trillions