2010-10-13 21 views
37

He estado leyendo muchos artículos que explican la necesidad de un conjunto inicial de textos clasificados como "positivos" o "negativos" antes de que un sistema de análisis de sentimientos realmente funcione.Análisis de sentimiento no supervisado

Mi pregunta es: ¿Alguien ha intentado simplemente hacer un control rudimentario de los adjetivos "positivos" contra los adjetivos "negativos", teniendo en cuenta los elementos negativos simples para evitar clasificar como "no feliz" como positivos? Si es así, ¿hay algún artículo que discuta solo por qué esta estrategia no es realista?

Respuesta

55

Un classic paper by Peter Turney (2002) explica un método para hacer el análisis de opiniones sin supervisión (clasificación positivo/negativo) utilizando sólo las palabras excelente y pobre como un conjunto de semillas. Turney usa el mutual information de otras palabras con estos dos adjetivos para lograr una precisión del 74%.

+0

Éste recibe la etiqueta de respuesta. Es un artículo muy interesante. – Trindaz

15

No he intentado hacer análisis de sentimientos no entrenados como el que está describiendo, pero fuera de mi cabeza diría que está simplificando demasiado el problema. Simplemente analizar los adjetivos no es suficiente para obtener una buena comprensión del sentimiento de un texto; por ejemplo, considere la palabra 'estúpido'. Solo, clasificaría eso como negativo, pero si una revisión de producto fuera a tener '... [x] producto hace que sus competidores parezcan estúpidos por no pensar primero en esta característica ...' entonces el sentimiento allí definitivamente sería positivo . El mayor contexto en el que aparecen las palabras definitivamente importa en algo como esto. Esta es la razón por la cual un enfoque de bolsa de palabras no entrenado solo (y mucho menos un conjunto de adjetivos aún más limitados) no es suficiente para abordar este problema de manera adecuada.

Los datos preclasificados ('de datos de entrenamiento') ayuda a que el problema se desplaza de tratar de determinar si un texto es del sentimiento positivo o negativo desde cero, para tratar de determinar si el texto es más similar a los textos positivos o textos negativos, y clasificarlo de esa manera. El otro gran punto es que los análisis textuales, como el análisis de sentimientos, a menudo se ven afectados en gran medida por las diferencias de las características de los textos en función del dominio. Esta es la razón por la cual tener un buen conjunto de datos para entrenar (es decir, datos precisos dentro del dominio en el que está trabajando, y con suerte es representativo de los textos que va a tener que clasificar) es tan importante como construir un buen sistema para clasificar con.

No es exactamente un artículo, pero espero que ayude.

+0

Gracias por su respuesta waffle! Aprecio toda la información que puedo obtener sobre este tema. – Trindaz

2

Intenté detectar palabras clave usando un diccionario de afecto para predecir la etiqueta de sentimiento en el nivel de la oración. Dada la generalidad del vocabulario (no dependiente del dominio), los resultados fueron solo del 61%. El documento está disponible en mi página de inicio.

En una versión algo mejorada, se consideraron los adverbios de negación. Todo el sistema, llamado EmoLib, está disponible para demostración:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

Saludos,

+0

Gracias por esta atrilla. Funcionó bastante bien para las pruebas que hice. – Trindaz

2

David,

no estoy seguro de si esto ayuda pero puede que desee ver en Jacob Perkin de blog post sobre el uso de NLTK para el análisis de opiniones.

+2

Él está haciendo una clasificación supervisada. – theharshest

0

No hay "accesos directos" mágicos en el análisis de sentimientos, como ocurre con cualquier otro tipo de análisis de texto que busque descubrir la "identidad" subyacente de un fragmento de texto. Intentar acortar los métodos de análisis de texto probados a través de una comprobación simplista "adjetiva" o enfoques similares conduce a ambigüedades, clasificaciones incorrectas, etc., que al final del día le dan una baja precisión en la lectura del sentimiento. Cuanto más escueta sea la fuente (por ejemplo, Twitter), más difícil será el problema.

3

El papel de Turney (2002) mencionado por larsmans es una buena idea básica. En una investigación más reciente, Li and He [2009] introduce un enfoque usando Latent Dirichlet Allocation (LDA) para entrenar un modelo que pueda clasificar el sentimiento general y el tema de un artículo simultáneamente de manera totalmente no supervisada. La precisión que logran es 84.6%.

+0

esto parece prometedor, lo leeré y comentaré –

+1

¿De verdad terminaste probándolo? Estoy trabajando en un problema similar tratando de hacer análisis de sentimientos en los archivos de correo electrónico de Enron. – user1943079

+0

@TrungHuynh Estoy publicando esto casi 4 años después de que se publicó la respuesta, pero el enlace al documento se ha cambiado ahora. ¿Puede decirme el nombre del periódico diario para poder buscarlo en línea? – Krishh

2

He probado varios métodos de análisis de sentimiento de opinión en la minería críticas. Lo que funcionó mejor para mí es el método descrito en el libro de Liu: http://www.cs.uic.edu/~liub/WebMiningBook.html En este libro Liu y otros, compararon muchas estrategias y discutieron diferentes artículos sobre Análisis de opinión y Minería de opinión.

Aunque mi principal objetivo era extraer características de las opiniones, he implementado un clasificador para detectar el sentimiento de clasificación positiva y negativa con esta función.

I utilizarse NLTK para el pre-procesamiento (tokenización Word, POS tagging) y la creación trigrams. Luego también usé los clasificadores bayesianos dentro de este takeit para comparar con otras estrategias que Liu estaba señalando.

Uno de los métodos se basa en el etiquetado como pos/neg cada trigrram expresar esta información, y el uso de algunos clasificador en estos datos. Otro método que intentó y funcionó mejor (en torno al 85% de precisión en mi conjunto de datos), fue el cálculo de la suma de las puntuaciones de PMI (información mutua puntual) para cada palabra de la frase y las palabras excelente/pobres como semillas de pos/neg clase.

+0

Hola Luchux, estoy trabajando en un dominio similar. ¿Podrían compartir su conjunto de datos? Será muy útil. – turing

Cuestiones relacionadas