Diferencia entre WhitespaceTokenizerFactory y StandardTokenizerFactory

Soy nuevo en Solr. Al leer la wiki de Solr, no entiendo las diferencias entre WhitespaceTokenizerFactory y StandardTokenizerFactory. ¿Cuál es su verdadera diferencia?Diferencia entre WhitespaceTokenizerFactory y StandardTokenizerFactory

Fuente

2012-06-25 trillions

difieren en la forma en que se reparten el texto analizado en tokens.

El StandardTokenizer hace esto en base a los siguientes (tomado de javadoc Lucene):

palabras

Divisiones por signos de puntuación, la eliminación de puntuacion. Sin embargo, un punto que no es seguido por espacios en blanco se considera parte de un token.
Divide palabras en guiones, a menos que haya un número en el token , en cuyo caso el token completo se interpreta como un número de producto y no se divide.
reconoce las direcciones de correo electrónico y de Internet nombres de host como una ficha.

El WhitespaceTokenizer hace esto basado en los espacios en blanco:

Un WhitespaceTokenizer es un señalizador que divide el texto en el espacio en blanco. Las secuencias adyacentes de caracteres que no son espacios en blanco forman tokens.

Usted debe escoger la tokenizer que mejor se adapte a su aplicación. ¡En cualquier caso, debe usar el mismo analizador/tokenizador para indexar y buscar!

Fuente

2012-06-25 03:13:57 csupnig

Gracias csupnig! Cuando dices "usar el mismo analizador/tokenizador" para indexar y buscar, querías decir que el analizador debe coincidir con el tipo de tokenizador que se está usando, ¿verdad? – trillions

Sí, deberían hacer lo mismo para producir tokens similares. Solo hay casos excepcionales en los que desee tokenizadores diferentes en el analizador de consultas que los tokenizadores que utilizó durante la indexación. Gracias :) – csupnig

csupnig – trillions

Diferencia entre WhitespaceTokenizerFactory y StandardTokenizerFactory

Respuesta

Cuestiones relacionadas