Tengo una matriz de cadenas, no muchas (tal vez unas pocas) pero a menudo largas (unos pocos cientos de caracteres).agrupando cadenas por similitud
Esas cuerdas son, por lo general, absurdas y diferentes unas de otras ... pero en un grupo de esas cuerdas, tal vez 5 de 300, hay una gran similitud. De hecho, son la misma cadena, lo que difiere es el formato, la puntuación y algunas palabras ...
¿Cómo puedo resolver ese grupo de cadenas?
Por cierto, estoy escribiendo en ruby, pero en todo caso un algoritmo en pseudocódigo estaría bien.
gracias
Enlace roto, obteniendo un 403 prohibido :( –
Lamento ver que falta. Agregué un enlace a un artículo de Wikipedia con información similar. –