No he intentado hacer análisis de sentimientos no entrenados como el que está describiendo, pero fuera de mi cabeza diría que está simplificando demasiado el problema. Simplemente analizar los adjetivos no es suficiente para obtener una buena comprensión del sentimiento de un texto; por ejemplo, considere la palabra 'estúpido'. Solo, clasificaría eso como negativo, pero si una revisión de producto fuera a tener '... [x] producto hace que sus competidores parezcan estúpidos por no pensar primero en esta característica ...' entonces el sentimiento allí definitivamente sería positivo . El mayor contexto en el que aparecen las palabras definitivamente importa en algo como esto. Esta es la razón por la cual un enfoque de bolsa de palabras no entrenado solo (y mucho menos un conjunto de adjetivos aún más limitados) no es suficiente para abordar este problema de manera adecuada.
Los datos preclasificados ('de datos de entrenamiento') ayuda a que el problema se desplaza de tratar de determinar si un texto es del sentimiento positivo o negativo desde cero, para tratar de determinar si el texto es más similar a los textos positivos o textos negativos, y clasificarlo de esa manera. El otro gran punto es que los análisis textuales, como el análisis de sentimientos, a menudo se ven afectados en gran medida por las diferencias de las características de los textos en función del dominio. Esta es la razón por la cual tener un buen conjunto de datos para entrenar (es decir, datos precisos dentro del dominio en el que está trabajando, y con suerte es representativo de los textos que va a tener que clasificar) es tan importante como construir un buen sistema para clasificar con.
No es exactamente un artículo, pero espero que ayude.
Éste recibe la etiqueta de respuesta. Es un artículo muy interesante. – Trindaz