Estoy leyendo que puedo crear vectores mahout a partir de un índice lucene que se puede usar para aplicar los algoritmos de agrupamiento mahout. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene documento agrupando cómo?
me gustaría aplicar K-means algoritmo de agrupamiento en los documentos en mi índice Lucene, pero no está claro cómo puedo aplicar este algoritmo (o agrupación jerárquica) para extraer las agrupaciones significativas con estos documentos.
En esta página http://cwiki.apache.org/confluence/display/MAHOUT/k-Means dice que el algoritmo acepta dos directorios de entrada: uno para los puntos de datos y otro para los conglomerados iniciales. Mis puntos de datos son los documentos? ¿Cómo puedo "declarar" que estos son mis documentos (o sus vectores), simplemente tomarlos y hacer el agrupamiento?
lo siento de antemano por mi mala gramática
Gracias
sí que es no puedo entender. ¿Cuál es el resultado? ¿Cómo puedo ver en el resultado que, por ejemplo, los documentos 5 y 8 están en el mismo clúster? – maiky