2009-07-28 28 views
10

Estoy jugando con el análisis de sentimiento, y estoy buscando algunos datos iniciales. ¿Hay un diccionario gratuito?Datos de semilla para análisis de sentimiento

Puede ser realmente simple: 3 juegos de textos/frases, para "positivo", "negativo", "neutral". No tiene que ser enorme.

Eventualmente, probablemente generaré mis propios datos iniciales para mi caso de uso específico, pero sería genial tener algo con lo que jugar ahora mientras estoy construyendo la cosa.

+0

tengo el Bing Lui y Minqing Hu conjunto de datos (alrededor de 7000 reseñas de alrededor de 9 productos en Amazon.com) Los puse en una Hoja de Excel con el puntaje promedio combinado de cada uno de ellos. También agregué el puntaje de 3 diferentes API de análisis de sentimiento libre de la web (ViralHeat, AlchemyAPI, repustate API) si quieres esa hoja de Excel, puedo dartela. – SKandeel

+1

http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon – zengr

+0

@SherifMaherEaid: ¿Cómo crea su propio diccionario a partir de los artículos? – user123

Respuesta

3

Si le interesan los diccionarios de opinión, muchos autores han presentado trabajos basados ​​en listas creadas manualmente y otros métodos semiautomatizados para obtener listas de términos obstinados. Un buen enfoque es derivarlo de la base de datos WordNet, extendiendo un núcleo de palabras positivas/negativas usando relaciones como sinónimos, etc.

Un buen ejemplo de una lista construida manualmente es el General Inquirer.

Para obtener un método semiautomatizado que deriva listas, consulte SentiWordNet de Esuli and Sebastiani.

Creo que generalmente están disponibles para la investigación, pero es posible que deba ponerse en contacto con los autores sobre el uso de estos recursos para fines no relacionados con la investigación.

B.

1

Puede utilizar la lista de palabras AFINN aquí:

http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010

AFINN es una lista de palabras en inglés clasificados para valencia con un entero entre menos cinco (negativo) y más cinco (positivo). Las palabras tienen etiquetadas manualmente por Finn Årup Nielsen en 2009-2011. El archivo es separado por tabuladores. Hay dos versiones:

AFINN-111: La última versión con 2477 palabras y frases.

AFINN-96: 1468 palabras y frases únicas en 1480 líneas. Tenga en cuenta que son 1480 líneas, ya que algunas palabras se enumeran dos veces. La lista de palabras no es en orden alfabético.

Cuestiones relacionadas