que estoy haciendo kmeans agrupación en R con dos requisitos:¿Cómo se especifica la métrica de distancia mientras que para kmeans en R?
necesito especificar mi propia función de distancia, ahora es el coeficiente de Pearson.
Quiero hacer la agrupación en clúster que utiliza la media de miembros del grupo como centroides, en lugar de un miembro real. La razón de este requisito es que creo que usar el promedio como centroide tiene más sentido que usar un miembro real, ya que los miembros no siempre están cerca del centroide real. Por favor, corrígeme si me equivoco sobre esto.
Primero probé la función kmeans
en stat
paquete, pero esta función no permite el método de la distancia medida.
Luego encontré la función pam
en el paquete cluster
. La función pam
permite métricas de distancia personalizadas tomando como parámetro un objeto dist
, pero me parece que al hacerlo se necesitan miembros reales como centroides, que no es lo que esperaba. Ya que no creo que pueda hacer todo el cálculo de distancia con solo una matriz de distancia.
Entonces, ¿hay alguna manera fácil en R para hacer la agrupación kmeans que satisfaga mis dos requisitos?
Puede usar 'vegetariana :: designdist' para crear su propio índice (también ver' vegetariana :: vegdist' si ya existe). Después de tener su objeto 'dist', puede usar' hclust' en el paquete de estadísticas para usar su método de agregación apropiado. –
@ RomanLuštrik, gracias por comentar. Sé cómo especificar la métrica de distancia con hclust, pero ahora necesito saber cómo hacerlo con kmeans. –