2011-08-04 13 views
20

Duplicar posible:
Are there any Fuzzy Search or String Similarity Functions libraries written for C#?C# - Comparación de similitud de cadenas

¿Cuál es la mejor manera de comparar 2 cadenas para ver lo similares que son?

Ejemplos:

My String 
My String With Extra Words 

O

My String 
My Slightly Different String 

Lo que estoy buscando es para determinar la similitud de la primera y segunda cadena en cada par es. Me gustaría calificar la comparación y si las cuerdas son lo suficientemente similares, las consideraría un par coincidente.

¿Hay una buena manera de hacer esto en C#?

+1

Levenshtein edit distance, Soundex, and Hamming distance all hacen esto de diferentes maneras. Deberá definir mejor su métrica antes de poder encontrar una implementación. – bmm6o

Respuesta

50
static class LevenshteinDistance 
{ 
    public static int Compute(string s, string t) 
    { 
     if (string.IsNullOrEmpty(s)) 
     { 
      if (string.IsNullOrEmpty(t)) 
       return 0; 
      return t.Length; 
     } 

     if (string.IsNullOrEmpty(t)) 
     { 
      return s.Length; 
     } 

     int n = s.Length; 
     int m = t.Length; 
     int[,] d = new int[n + 1, m + 1]; 

     // initialize the top and right of the table to 0, 1, 2, ... 
     for (int i = 0; i <= n; d[i, 0] = i++); 
     for (int j = 1; j <= m; d[0, j] = j++); 

     for (int i = 1; i <= n; i++) 
     { 
      for (int j = 1; j <= m; j++) 
      { 
       int cost = (t[j - 1] == s[i - 1]) ? 0 : 1; 
       int min1 = d[i - 1, j] + 1; 
       int min2 = d[i, j - 1] + 1; 
       int min3 = d[i - 1, j - 1] + cost; 
       d[i, j] = Math.Min(Math.Min(min1, min2), min3); 
      } 
     } 
     return d[n, m]; 
    } 
} 
+5

Esta iba a ser mi respuesta. El algoritmo Damereau-Levenshein Distance calcula el número de sumas, restas, sustituciones y transposiciones (intercambios) de letras necesarios para convertir una cadena en otra. Cuanto menor es el puntaje, más similares son. – KeithS

+0

Debe tenerse en cuenta que este enfoque requiere mucha memoria incluso para cadenas de tamaño medio. Hay una solución fácil que solo requiere 'min (n, m) + 1' de memoria extra. –

+1

Esto funcionó muy bien. Afortunadamente, todas mis cadenas son muy cortas (50 caracteres o menos), por lo que procesa muy rápido para mí. – Brandon

Cuestiones relacionadas