2012-04-16 62 views
13

Estoy utilizando KNN para clasificar los dígitos escritos a mano. También ahora implementé PCA para reducir la dimensionalidad. De 256 fui a 200. Pero solo noto como, ~ 0.10% de pérdida de información. Borré 56 dimensiones. ¿No debería la pérdida ser más grande? Solo cuando baje a 5 dimensiones, recibo una pérdida de ~ 20%. ¿Esto es normal?Algoritmo PCA y KNN

+0

Ese tipo de cosas es común en muchos tipos de aplicaciones. Se llama el punto de rendimientos decrecientes. –

Respuesta

6

¿Estás diciendo que después de eliminar 56 dimensiones, has perdido casi ninguna información? ¡Por supuesto, ese es el objetivo de PCA! Principal Component Analysis, como su nombre lo indica, lo ayudará a determinar qué dimensiones llevan la información. Y puedes eliminar el resto, lo que hace la mayor parte de él.

Quiero algunos ejemplos, en el análisis de genes, he leído documentos donde la dimensión se reduce de 40'000 a 100 con PCA, luego hacen algo mágico, y tienen un excelente clasificador con 19 dimensiones. Esto te dice implícitamente que prácticamente no perdieron información cuando eliminaron 39'900 dimensiones.

+2

ok gracias. Soy un poco nuevo en el aprendizaje automático –

0

Eso es normal, sí (y como Fezvez dijo el punto de lo que hiciste). Tu caso es en realidad un buen ejemplo en el que puedes ver cómo es posible.

Eche un vistazo a sus datos (eso siempre es importante en el aprendizaje automático, conozca sus datos). Si tiene imágenes de dígitos escritos a mano en blanco, existe una gran posibilidad de que los píxeles en algunas esquinas sean blancos para todas las muestras (tuve eso en una esquina cuando hice el aprendizaje automático en dígitos escritos a mano). Entonces, en realidad, no hay información en ese píxel en absoluto. Si lo dejas como entrada para tu KNN o ANN o lo que sea, obtendrás los mismos resultados.

Cuestiones relacionadas