2011-01-18 39 views
6

Actualmente estoy buscando alguna herramienta que genere conjuntos de datos de diferentes formas como cuadrados, círculos, rectángulos, etc. con valores atípicos para el análisis de conglomerados.Cómo generar datos bivariados de diferentes formas (por ejemplo, cuadrado, círculo, rectángulo) con valores atípicos?

¿Puede alguno de ustedes recomendar un buen generador de conjuntos de datos para el análisis de clúster? ¿Hay alguna forma de generar dichos conjuntos de datos en idiomas como R?

Respuesta

6

Crearía una forma y extraería las coordenadas de delimitación. Puede completar la forma con puntos aleatorios usando el paquete splancs.

Aquí es un pequeño fragmento de uno de mis programas:

# First we create a circle, into which uniform random points will be generated (kudos to Barry Rowlingson, r-sig-geo). 
circle <- function(x = x, y = y, r = radius, n = n.faces){ 
    t <- seq(from = 0, to = 2 * pi, length = n + 1)[-1] 
    t <- cbind(x = x + r * sin(t), y = y+ r * cos(t)) 
    t <- rbind(t, t[1,]) 
    return(t) 
} 

csr(circle(0, 0, 100, 30), 1000) 

alt text

agrega a los valores atípicos. Una forma de hacerlo es tomar muestras de diferentes formas y unirlas de diferentes maneras.

+0

Muchas gracias :-)) que ayudó mucho :-)) – Pradeep

6

Probablemente deberías consultar el paquete mlbench, especialmente el conjunto de datos sintéticos que se genera a partir de las funciones mlbench.*, ver algunos ejemplos a continuación.

enter image description here

Otros conjuntos de datos o funciones de utilidad son probablemente el mejor conocer en la Cluster vista de tareas en CRAN. Como dijo @Roman, agregar valores atípicos no es realmente difícil, especialmente cuando trabajas solo en dos dimensiones.

1

Hay un generador de datos flexible en ELKI que puede generar varias distribuciones en dimensionalidad arbitraria. También puede generar variables distribuidas Gamma, por ejemplo.

Existe documentación en el Wiki: http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator

Cuestiones relacionadas