2012-09-27 13 views
5

Estoy intentando encontrar palabras asociadas con una palabra en particular en una matriz de documento de términos utilizando el paquete tm.Problemas con findAssocs del paquete tm

Estoy usando findAssocs para hacer esto. Los argumentos para findAssocs son:

  • x: Una matriz de documento de términos.
  • término: personaje que ocupa un término.
  • corlimit: Un valor numérico para el límite límite de correlación inferior.

estoy recibiendo constantemente numeric(0) como mi resultado

Ejemplo:

findAssocs(test.dtm, "investment", 0.90) 
>numeric(0) 

¿Alguien tiene familiaridad con findAssocs y saber lo que estoy haciendo mal? ¿O alguien sabe más ampliamente qué podría significar el resultado numeric(0)?

Muchas gracias de antemano por cualquier ayuda.

+0

Estoy seguro de que si proporcionas un ejemplo reproducible lo descubrirías tú mismo. –

+0

No estoy seguro de por qué esta pregunta está recibiendo una recompensa, ya existe una respuesta perfectamente buena: el umbral es demasiado alto, por lo que no se asocia ninguna palabra – scoa

Respuesta

2

Este resultado indica que no hay palabras asociadas en el 0.90 de los documentos con el término "inversión". Pruebe con un umbral más bajo, como 0.05, y aumente hasta alcanzar un umbral que produzca menos términos.

2

Obtengo el mismo numeric(0), creo que es porque solo hay un documento en mi Corpus, por lo que el document term matrix solo tiene una columna. Es posible que desee probar TermDocumentMatrix() y ver si tiene un multi-column matrix. Dicho esto, ¿cómo encuentro la asociación dentro de un documento ?.

+1

Esto no es realmente una respuesta. – Dason

+0

@Dason, estoy de acuerdo, pero es una pista útil. Ante el mismo mensaje de error, probé la afirmación de que 'findAssocs' no funciona cuando solo hay un documento en el tdm, pero funciona bien cuando hay más de un documento. – Ben

0

Parece que esta funcionalidad solo funciona cuando se analizan varios documentos de texto. La única solución viable que he encontrado es crear un duplicado de documento de texto y luego ejecutar el análisis. Sin embargo, no está claro si esto cambia los resultados de alguna manera. Cualquier comentario adicional sería apreciado.

Cuestiones relacionadas