Existe una biblioteca Java simple de usar que puede tomar una Cadena y devolver un conjunto de Cadenas que son las palabras clave/frases clave.java keyword extraction
No tiene que ser particularmente inteligente, solo use palabras de finalización y derivadas para hacer coincidir palabras clave.
Estoy mirando el paquete de KEA http://code.google.com/p/kea-algorithm/ pero no entiendo cómo usar su código.
Idealmente algo simple que tiene un pequeño ejemplo de documentación sería bueno. ¡Mientras tanto, me pondré a escribir esto yo mismo!
EDIT: cuando digo que no puedo ver cómo averiguar cómo usar su código, quiero decir que no puedo ver de una manera simple. Las clases individuales por sí mismas tienen métodos útiles que harán gran parte del trabajo.
¿Qué quiere decir keyword/keyphrases? como una expresión regular dentro de la cadena o algo así? –
no .... palabras clave que un motor de búsqueda reconocería, quiero extraer palabras clave de artículos de noticias y obtener una lista de artículos similares de diferentes sitios de noticias (sé que hay muchos servicios existentes que hacen eso ... es solo un poco de diversión y aprendizaje para mí). – Ankur
Agradable, me encanta esa idea. Debe buscar/escribir un algoritmo que calcule las frecuencias de palabras/frases –