2011-09-13 22 views

Respuesta

7

Estas medidas son en realidad para sentidos de palabras (o conceptos) no palabras. Esa distinción podría importar. En otras palabras, la palabra "tren" puede significar "locomotora" o "se les enseña a hacer algo". Para usar estas medidas, necesitaría saber qué sentido tenía.

Si usted quiere hacer el agrupamiento de textos, estas medidas podrían no ser exactamente lo que quiere ...

3

He estado jugando con NLTK/wordnet a mí mismo a los efectos de tratar de hacer coincidir algunos textos de alguna manera automática. Como señala la respuesta de Ted Pedersen, queda bastante claro que las funciones de similitud en nltk.corpus.wordnet solo producen similitudes distintas de cero para términos bastante relacionados con un sólido pedigrí IS-A.

Lo que terminé haciendo fue tomando el vocabulario en mis textos, y luego usando lemma-> synset-> lemas y lemma-> similar_tos hacer crecer mi propio gráfico palabra de enlace (graph_tool fantástico para esto) y luego contar el minimum number of hops necesario para vincular 2 palabras para obtener algún tipo de medida de (des) similitud entre ellos (bastante entretenido para imprimirlos, como ver un juego de asociación de palabras muy extraño). Esto realmente funcionó bastante bien para mis propósitos, incluso sin ningún intento de tomar POS/sentido en cuenta.

Cuestiones relacionadas