Imagine que tiene un conjunto de cinco elementos (AE) con algunos valores numéricos de una propiedad medida (varias observaciones para cada elemento, por ejemplo, "la frecuencia cardíaca"):algoritmo eficiente para la detección de diferentes elementos en una colección
A = {100, 110, 120, 130}
B = {110, 100, 110, 120, 90}
C = { 90, 110, 120, 100}
D = {120, 100, 120, 110, 110, 120}
E = {110, 120, 120, 110, 120}
Primero, Tengo que detectar si hay diferencias significativas en los niveles promedio. Entonces corro de una manera ANOVA usando el Statistical package provided by Apache Commons Math. Sin problemas hasta el momento, obtengo un booleano que me dice si se encuentran diferencias o no.
Segunda, si se encuentran diferencias, necesito saber el elemento (o elementos) que es diferente del resto. Planeo usar unpaired t-tests, comparando cada par de elementos (A con B, A con C .... D con E), para saber si un elemento es diferente al otro. Por lo tanto, en este momento tengo la información de la lista de elementos que presentan diferencias significativas con otros, por ejemplo:
C is different than B
C is different than D
Pero necesito un algoritmo genérico para determinar de manera eficiente, con esa información, qué elemento es diferente los demás (C en el ejemplo, pero podría ser más de uno).
Dejando de lado las cuestiones estadísticas, la pregunta podría ser (en términos generales): "Dada la información sobre igualdad/desigualdad de cada uno de los pares de elementos en una colección, ¿cómo se puede determinar el/los elemento/s que/son diferentes de los demás? "
Parece ser un problema donde se podría aplicar la teoría de gráficos. Estoy usando el lenguaje Java para la implementación, si eso es útil.
Editar: Los elementos son personas y los valores medidos son los tiempos necesarios para completar una tarea. Necesito detectar quién está tomando demasiado o muy poco tiempo para completar la tarea en algún tipo de sistema de detección de fraude.
Pregunta muy bien formateada. Depende de lo que quieras decir con un elemento diferente. ¿Te refieres al elemento con los bordes más diferenciados? En el ejemplo de gráfico que ha presentado hasta ahora, parece que simplemente estaría buscando el elemento con el grado más alto. – Pace
¿Podría explicar su definición de "diferencias significativas" o "diferentes"? Un enfoque ingenuo diría que todos son diferentes. Pero obviamente, eso no es lo que buscas. – sfussenegger
@sfussenegger Gracias. Por "elementos diferentes" me refiero a elementos cuya media para la propiedad medida es diferente en términos estadísticos. Es decir, cuando se encuentra una diferencia estadísticamente significativa con un determinado intervalo de confianza (típicamente, 95%). http://en.wikipedia.org/wiki/Statistical_significance –