2009-02-27 32 views
6

Stemming es algo que se necesita en los sistemas de etiquetado. Uso delicioso, y no tengo tiempo para administrar y podar mis etiquetas. Soy un poco más cuidadoso con mi blog, pero no es perfecto. Escribo software para sistemas integrados que serían mucho más funcionales (útiles para el usuario) si incluyesen la derivación.Stemming - ejemplos de código o proyectos de código abierto

Por ejemplo:
Analizar
Analizador
de análisis

caso de todos significan lo mismo a cualquier sistema que los estoy poniendo en.

Lo ideal es que haya una lectora con licencia BSD en algún lugar, pero si no, ¿dónde busco aprender los algoritmos y técnicas comunes para esto?

Aparte de los proyectores BSD, ¿qué otras lectoras con licencia de código abierto existen?

-Adam

+0

Alguien tiene que agregar http://snowball.tartarus.org/ como respuesta (sugerencia, pista) ... –

+0

Hehe, strippergram –

+0

Pero me gustaría ver otros, y específicamente más información sobre los algoritmos utilizados . –

Respuesta

1

Lucene tiene una despalilladora, yo creo (y IIRC que le permite utilizar su propio si lo desea).

EDITAR: Acabo de marcar, y Lucence se refiere al sitio Snowball que es una biblioteca de código abierto de origen hasta donde yo sé.

Cuestiones relacionadas