2011-10-13 26 views
6

¿Qué paquete de código abierto es el mejor para agrupar un gran corpus de documentos? Debe decidir el número de clústeres por sí mismo o también puede aceptarlo como un parámetro.¿Cuál es el mejor paquete de código abierto de agrupamiento de documentos?

Tenemos un gran corpus de documentos que realmente no giran en torno a un tema en particular: son documentos producidos por personas de ventas y administración en varios proyectos y clientes de la organización. Sé que tener un corpus tan extendido degradará el rendimiento, pero estamos tratando de vivir con lo mejor que podamos. Ahora, lo que es lo mejor que podemos conseguir :-)

Respuesta

4

Una lista de software de modelado tema desde la página principal de un experto en el campo: http://www.cs.princeton.edu/~blei/topicmodeling.html

Un grupo competidor líder (con código fuente abierto): http://nlp.stanford.edu/software/tmt/tmt-0.3/

Otro de los proyectos de código abierto de java: http://mallet.cs.umass.edu/topics.php

+0

Hola, ha cambiado drásticamente en algo mientras tanto? Encontré esta genial herramienta: https://code.google.com/p/maui-indexer/ – Kiril

Cuestiones relacionadas