2009-07-04 15 views
7

Parece que la forma más sencilla e ingenua de hacer análisis de sentimientos básicos es con un clasificador bayesiano (confirmado por lo que estoy buscando aquí en SO). Cualquier contraargumento u otras sugerencias?Simple Sentiment Analysis

Respuesta

11

Un clasificador bayesiano con una bolsa de palabras representadas es el método estadístico más simple. Puede obtener resultados significativamente mejores pasando a clasificadores más avanzados y representación de características, a costa de una mayor complejidad.

Los métodos estadísticos no son el único juego en la ciudad. Los métodos basados ​​en reglas que tienen una mayor comprensión de la estructura del texto son la otra opción principal. Por lo que he visto, estos no funcionan tan bien como los métodos estadísticos.

Recomiendo Manning y Schütze's Fundamentos del procesamiento del lenguaje natural estadístico capítulo 16, Categorización de texto.

5

No puedo pensar en una forma más simple e ingenua de hacer análisis de opinión, pero podría considerar usar una Máquina de vectores de soporte en lugar de Naive Bayes (en algunos kits de herramientas de aprendizaje automático, puede ser un reemplazo directo) . Eche un vistazo a "Thumbs up? Sentiment Classification using Machine Learning Techniques" by Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan, que fue uno de los primeros trabajos sobre estas técnicas, y proporciona una buena tabla de resultados de precisión en una familia de técnicas relacionadas, ninguna de las cuales es más complicada (desde la perspectiva del cliente) que ninguna de las demás.

+0

Ese es un buen comienzo. Más tarde, Pang & Lee tuvo otro documento que aborda el problema de forma ligeramente diferente para obtener un mejor resultado. Pruebe esto: http://www.aclweb.org/anthology-new/P/P04/P04-1035.pdf – mixdev

1

Sobre la base de la respuesta proporcionada por Ken anterior, hay otro papel

"El análisis de sentimientos uso de máquinas de vectores de soporte con diversas fuentes de información" de Tony y Níger,

que se ve en la asignación de más funciones que simplemente una bolsa de palabras utilizada por Pang y Lee. Aquí, aprovechan wordnet para determinar la diferenciación semántica de los adjetivos, y la proximidad del sentimiento hacia el tema en el texto, como características adicionales para SVM. Muestran mejores resultados que los intentos previos de clasificar el texto en función del sentimiento.

Cuestiones relacionadas