¿Cuál es el mejor algoritmo de coincidencia difusa (Fuzzy Logic, N-Gram, Levenstein, Soundex ....,) para procesar más de 100000 registros en menos tiempo?¿El mejor algoritmo de coincidencia difusa?
26
A
Respuesta
21
Le sugiero que lea los artículos de Navarro mencionados en la sección Refencias del artículo de Wikipedia titulado Approximate string matching. Tomar su decisión basándose en la investigación real siempre es mejor que en las sugerencias de extraños al azar desconocidos. Especialmente si el rendimiento en un conjunto conocido de registros es importante para usted.
3
Depende enormemente de sus datos. Ciertos registros se pueden combinar mejor que otros. Por ejemplo, el código postal es un formato definido por lo que se puede comparar de una manera diferente a las cadenas normales. Las personas se pueden combinar en las iniciales y fecha de nacimiento, u otras combinaciones, etc.
Cuestiones relacionadas
- 1. Coincidencia difusa en C#
- 2. Algoritmos para cadenas "coincidencia difusa"
- 3. Coincidencia difusa usando T-SQL
- 4. Coincidencia difusa de los nombres de productos
- 5. Algoritmo de fecha difusa en Objective-C
- 6. Coincidencia difusa de registros con varias columnas de información
- 7. Algoritmo de coincidencia de Dominios
- 8. algoritmo de coincidencia de árbol?
- 9. Cómo encontrar una posición de una subcadena dentro de una cadena con coincidencia difusa
- 10. Mejor biblioteca para huella dactilar de correspondencia/texto difusa
- 11. reglas de coincidencia dada una entrada (algoritmo)
- 12. El mejor algoritmo para unir colores.
- 13. ¿Cuál es considerado actualmente el "mejor" algoritmo para la coincidencia de puntos 2D?
- 14. Necesito un algoritmo de coincidencia de direcciones
- 15. Algoritmo de coincidencia de cadenas Rabin Karp
- 16. Cómo encontrar la mejor coincidencia difusa para una cadena en una base de datos de cadena grande
- 17. ¿Qué es el algoritmo de búsqueda difusa 'Ir a archivo' de textmate?
- 18. ¿el mejor algoritmo para el intercambio?
- 19. Algoritmo de coincidencia de cadenas paralelas de primer orden
- 20. 'Mejor' Algoritmo Diff
- 21. Mejor tipo comprobación de coincidencia en Scala
- 22. Mejor práctica: coincidencia parcial de Regex
- 23. El mejor algoritmo para ordenar los exámenes
- 24. Porcentaje de coincidencia de coincidencia con Levenshtein Coincidencia de distancia
- 25. ¿Cómo hago para construir un algoritmo de coincidencia?
- 26. Biblioteca ligera de búsqueda difusa
- 27. Mejor algoritmo para indexar oraciones
- 28. ¿Mejor algoritmo de generación/simulación de rayos?
- 29. ¿Cuál es el mejor algoritmo de multiplicación de matrices?
- 30. ¿Es A * el mejor algoritmo de determinación de ruta?
Imagino que lo que @Mitch Wheat * quería decir es que será muy difícil dar una respuesta definitiva a esta pregunta, ya que la mejor solución dependerá en gran medida de las características de su entrada y arquitectura del sistema. Como Tim mencionó en su respuesta, deberías leer las fortalezas y debilidades de estos algoritmos, y luego probar los que te parezcan apropiados. – DougW