2011-02-04 17 views
13

Soy un estudiante graduado de CS (minería de datos y aprendizaje automático) y tengo una buena exposición al núcleo de Java (> 4 años). He leído un montón de cosas en Hadoop y Map/ReduceHadoop Machine learning/idea de proyecto de minería de datos?

Ahora me gustaría hacer un proyecto sobre este tema (sobre mi tiempo libre de corse) para obtener una mejor comprensión.

Cualquier buena idea de proyecto sería muy apreciada. Solo quiero hacer esto para aprender, así que no me importa reinventar la rueda. Además, todo lo relacionado con la minería de datos/aprendizaje automático sería una ventaja adicional (se ajusta a mi investigación) pero absolutamente no es necesario.

+0

¿Qué quiere decir con minería de gráficos? ¿Cuáles son sus intereses que le gustaría aprender/construir/mejorar? Tengo algunas sugerencias, pero quiero primero aguardar sus campos de interés personales ... – Sam

+0

Por minería de gráficos, quise decir que he trabajado en problemas de optimización en gráficos grandes (Flicker, DBLP) y actualmente estoy trabajando en algunos análisis de redes sociales, incluyendo temas modelado en Twitter Data y también en aproximaciones matriciales de bajo rango de gráficos grandes. Incluso de lo contrario, estoy interesado en el aprendizaje automático y los problemas de minería de datos en particular. Sin embargo, para Hadoop busco cualquier proyecto no trivial pero no de investigación que pueda hacer en mi tiempo libre, solo para tener una mejor comprensión. – dreamer13134

Respuesta

8

No ha escrito nada acerca de su interés. Sé que los algoritmos en la extracción de gráficos se han implementado sobre el framework hadoop. Este software http://www.cs.cmu.edu/~pegasus/ y papel: "PEGASO: Un sistema de minería de gráficos a escala de petaca: implementación y observaciones" puede brindarle un punto de partida.

Además, este enlace analiza algo similar a su pregunta: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/ pero está en python. Y, hay un documento muy bueno de Andrew Ng "Map-Reduce for Machine Learning on Multicore".

Hubo un taller NIPS 2009 sobre el tema similar "Aprendizaje automático en gran escala: paralelismo y conjuntos de datos masivos". Puede navegar por algunos papeles y hacerse una idea.

Editar: También existe Apache Mahout http://mahout.apache.org/ -> "Nuestros algoritmos básicos para la agrupación, classfication y lotes basados ​​filtrado colaborativo se implementan en la parte superior de Apache Hadoop usando el mapa/reducir paradigma"

+0

Muchas gracias por los consejos. Lo aprecio. – dreamer13134

+0

Básicamente, me he concentrado en el aprendizaje automático, la minería de gráficos en mis maestros y estoy buscando aprender hadoop como un conjunto adicional de habilidades. He pasado por proyectos como Mahout, pero me gustaría construir algo por mi cuenta para obtener una comprensión más profunda, así como también desarrollo de software a gran escala. – dreamer13134

1

¿por qué no contribuyen a Apache Hadoop/Mahout ayudando a implementar algoritmos adicionales?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

tiene una serie de algoritmos marcados como "abierto". A mi entender, ¿podrían usar ayuda para implementar esto? Y hay cientos de algoritmos que incluso faltan en esta lista.

De cualquier forma, ya que quiere hacer algo con Hadoop, ¿por qué no les pregunta qué necesitan en lugar de preguntar en algún sitio web al azar?

0

Tratar de pensar en una forma eficiente de implementar agrupamiento aglomerativo jerárquico en Hadoop es un buen proyecto para trabajar. No solo implica aspectos algorítmicos, sino también optimizaciones relacionadas con el marco base de hadoop.

Cuestiones relacionadas