2009-01-29 17 views
26

¿Cuál es el mejor algoritmo de coincidencia difusa (Fuzzy Logic, N-Gram, Levenstein, Soundex ....,) para procesar más de 100000 registros en menos tiempo?¿El mejor algoritmo de coincidencia difusa?

+0

Imagino que lo que @Mitch Wheat * quería decir es que será muy difícil dar una respuesta definitiva a esta pregunta, ya que la mejor solución dependerá en gran medida de las características de su entrada y arquitectura del sistema. Como Tim mencionó en su respuesta, deberías leer las fortalezas y debilidades de estos algoritmos, y luego probar los que te parezcan apropiados. – DougW

Respuesta

21

Le sugiero que lea los artículos de Navarro mencionados en la sección Refencias del artículo de Wikipedia titulado Approximate string matching. Tomar su decisión basándose en la investigación real siempre es mejor que en las sugerencias de extraños al azar desconocidos. Especialmente si el rendimiento en un conjunto conocido de registros es importante para usted.

3

Depende enormemente de sus datos. Ciertos registros se pueden combinar mejor que otros. Por ejemplo, el código postal es un formato definido por lo que se puede comparar de una manera diferente a las cadenas normales. Las personas se pueden combinar en las iniciales y fecha de nacimiento, u otras combinaciones, etc.

Cuestiones relacionadas