2011-04-25 16 views
16

¿Puede alguien decirme si hay una buena (fácil) forma de visualizar datos de gran dimensión? Mis datos actualmente son 21 dimensiones, pero me gustaría ver si es denso o escaso. ¿Hay técnicas para lograr esto?¿Existe una manera buena y fácil de visualizar datos de gran dimensión?

+2

No conozco la respuesta, pero puedo decirte que la optimización de este es un tema de investigación muy candente. –

+0

Sugiero usar una herramienta de visualización como Tableau o Spotfire. Aun así, 21 dimensiones es mucho, por lo que es probable que deba realizar algún tipo de técnica de reducción de dimensión para llevarlo a un nivel significativo http://www.tableausoftware.com/public –

Respuesta

16

Parallel coordinates son un método popular para visualizar datos de gran dimensión.

¿Qué tipo de visualización es mejor para sus datos, en particular, dependerá de sus características, qué tan correlacionadas están las diferentes dimensiones?

0

Star Schema.

http://en.wikipedia.org/wiki/Star_schema

funciona bien para datos de alta dimensión.

Si la cardinalidad de su tabla de hechos está cerca del producto de sus tamaños de dimensión, tiene datos densos.

Si la cardinalidad de su tabla de hechos es menor que el producto de los tamaños de sus dimensiones, tiene pocos datos.

En el medio tiene una llamada de juicio.

8

La palabra de moda que buscaría es multidimensional scaling. Es una técnica para desarrollar una proyección desde el espacio de alta dimensión a un espacio inferior (2 o 3 dimensiones) de tal manera que los puntos que están cerca en el espacio completo estarán cerca en la proyección.

A menudo se utiliza para visualizar el resultado de los algoritmos de agrupamiento (es decir, si sus clústeres son compactos en la proyección MDS, hay una buena probabilidad de que también estén en el espacio completo).

Editar: Esto no ayudaría necesariamente a determinar si los datos son densos o escasos, porque pierde la escala en la proyección, pero mostraría si es uniforme o grumosa (quizás eso es lo que quiere decir).

0

El software de exploración de datos curios.IT está diseñado para la visualización de datos de alta dimensión: los datos se muestran como una colección de objetos 3D (uno para cada grupo de datos) que pueden mostrar hasta 13 variables al mismo tiempo. Las relaciones entre las variables de datos y las características visuales son mucho más fáciles de recordar que con otras técnicas (como las coordenadas paralelas).

2

Tome un vistazo a http://www.ggobi.org (excursiones, coordenadas paralelas, diagramas de dispersión matriciales) se puede utilizar para las variables con valores reales. También http://cranvas.org para más reciente. El paquete de tourr en R.

2

Estaba buscando formas de visualizar datos de gran dimensión y encontré este t-SNE technique que se ha utilizado con eficacia. Podría ayudar a otros también.

+0

Muy spam buscando – Cory

+0

¿Qué es, @Cory? ? Encontré esta pregunta cuando trato de buscar buenas visualizaciones de datos de alta dimensión con los que estoy trabajando y la página de t-SNE que he vinculado es un buen software de fuente abierta que pensé que beneficiaría a otros buscando uno –

+0

Lo siento, primera publicación, un enlace, eché un vistazo a la página y parecía aceptable, pero he visto innumerables publicaciones de spam con la misma acumulación. Perdón por la confusión de mi parte, ¿pueden editar su publicación para que pueda cambiar la votación? – Cory

Cuestiones relacionadas