Tengo un gran conjunto de datos que me gustaría agrupar. Mi tamaño de conjunto de prueba es de 2.500 objetos; cuando lo ejecute en el "trato real" tendré que manejar al menos 20k objetos.agrupamiento con similitud de coseno
Estos objetos tienen una similitud de coseno entre ellos. Esta similitud de coseno no cumple los requisitos de ser una medida de distancia matemática; no satisface la desigualdad del triángulo.
Me gustaría agruparlos de alguna manera "natural" que junte objetos similares sin necesidad de especificar de antemano el número de clústeres que espero.
¿Alguien sabe de un algoritmo que haría eso? Realmente, estoy buscando cualquier algoritmo que no requiera a) una métrica de distancia yb) un número de conglomerados previamente especificado.
¡Muchas gracias!
Esta pregunta se ha hecho antes aquí: Clustering from the cosine similarity values (pero esta solución sólo ofrece K-means clustering), y aquí: Effective clustering of a similarity matrix (pero esta solución era bastante vaga)
De http://en.wikipedia.org/wiki/Cosine_similarity: "Aunque el término" similitud del coseno "se ha utilizado para esta distancia angular, el término se usa de forma extraña ya que el coseno del ángulo se usa solo como mecanismo conveniente para calcular el ángulo en sí mismo y no es parte del significado.La ventaja del coeficiente de similitud angular es que, cuando se usa como coeficiente de diferencia (restándolo de 1) * la función resultante es una métrica de distancia * adecuada, que no es el caso para el primer significado. " – phs
¡Gracias! Lamentablemente debería haber sido más específico, estoy usando una similitud similar a un coseno que yo mismo he definido. No satisface la desigualdad del triángulo. – user1473883