Soy nuevo en Solr. Al leer la wiki de Solr, no entiendo las diferencias entre WhitespaceTokenizerFactory y StandardTokenizerFactory. ¿Cuál es su verdadera diferencia?Diferencia entre WhitespaceTokenizerFactory y StandardTokenizerFactory
6
A
Respuesta
23
difieren en la forma en que se reparten el texto analizado en tokens.
El StandardTokenizer hace esto en base a los siguientes (tomado de javadoc Lucene):
palabras- Divisiones por signos de puntuación, la eliminación de puntuacion. Sin embargo, un punto que no es seguido por espacios en blanco se considera parte de un token.
- Divide palabras en guiones, a menos que haya un número en el token , en cuyo caso el token completo se interpreta como un número de producto y no se divide.
- reconoce las direcciones de correo electrónico y de Internet nombres de host como una ficha.
El WhitespaceTokenizer hace esto basado en los espacios en blanco:
Un WhitespaceTokenizer es un señalizador que divide el texto en el espacio en blanco. Las secuencias adyacentes de caracteres que no son espacios en blanco forman tokens.
Usted debe escoger la tokenizer que mejor se adapte a su aplicación. ¡En cualquier caso, debe usar el mismo analizador/tokenizador para indexar y buscar!
Cuestiones relacionadas
- 1. Diferencia entre StandardTokenizerFactory y KeywordTokenizerFactory en Solr?
- 2. MySQL: diferencia entre ', `,' y"
- 3. Diferencia entre. y #
- 4. Diferencia entre & y &
- 5. ¿Diferencia entre == y caso?
- 6. Diferencia entre objeto y *?
- 7. La diferencia entre $ * y $ @
- 8. VBA: Diferencia entre y y +
- 9. Diferencia entre -Wconversion entre gcc y g ++
- 10. Diferencia entre "__method__" y "método"
- 11. Diferencia entre System.Web.Cache y HTTPContext.Curent.Cache
- 12. Diferencia entre JPA y JDO?
- 13. Diferencia entre XML y SOAP
- 14. Diferencia entre tortoisesvn y CollabNetSubversion
- 15. Diferencia entre interrupción y eventos
- 16. diferencia entre SDL y GLUT
- 17. C# diferencia entre == y equals()
- 18. Diferencia entre java.exe y javaw.exe
- 19. Diferencia entre borrar y eliminar
- 20. Diferencia entre objeto y NSObject
- 21. Diferencia entre iostream y iostream.h
- 22. Diferencia entre monitor y bloqueo?
- 23. ¿Diferencia entre asociación y dependencia?
- 24. Diferencia entre Math.Floor() y Math.Truncate()
- 25. Diferencia entre document.getSelection() y window.getSelection()
- 26. Diferencia entre Monitor.Pulse y Monitor.PulseAll
- 27. Diferencia entre wscript y cscript
- 28. Diferencia entre qt y PyQt4
- 29. Diferencia entre getAttribute() y getParameter()
- 30. Diferencia entre AlarmManager y ScheduledExecutorService
Gracias csupnig! Cuando dices "usar el mismo analizador/tokenizador" para indexar y buscar, querías decir que el analizador debe coincidir con el tipo de tokenizador que se está usando, ¿verdad? – trillions
Sí, deberían hacer lo mismo para producir tokens similares. Solo hay casos excepcionales en los que desee tokenizadores diferentes en el analizador de consultas que los tokenizadores que utilizó durante la indexación. Gracias :) – csupnig
csupnig – trillions