2011-03-12 9 views
7

¿Alguien puede recomendar un etiquetador POS de código abierto para coreano, indonesio, tailandés y vietnamita?Tag tagger coreano, tailandés e indonesio

Que puedo usar para etiquetar los datos del corpus que tengo actualmente. (por ejemplo, the stanford-postagger)

Si eres un desarrollador y te interesa compartir y dejarme probar el etiquetador POS, tampoco me importa.

Con algunas modificaciones de la salida, he POS etiquetados con los datos vietnamitas jvntextpro

Pero todavía me gustaría más la entrada en Corea, Indonesia y Tailandia etiquetado POS.

Respuesta

5

Después acl wiki: Korean morphological analyzer and part-of-speech tagger

me gustaría empezar a buscar en los sitios web de los departamentos de investigación PNL en Corea, Tailandia y Corea. On this page, encontrará enlaces a los departamentos de investigación.

¡Buena suerte!

ACTUALIZACIÓN: OpenNLP tiene thai PoS. Estos son los modelos: http://opennlp.sourceforge.net/models/thai/ para PoS opennlp tagger.

+0

http://isoft.postech.ac.kr/Course/CS730b/2005/index.html He encontrado el etiquetador coreano en esta página. ahora el etiquetador tailandés falta. jajaja ... gracias por la página, pero necesitamos una mejor recopilación de recursos de PNL. – alvas

0

Es posible que desee probar RDRPOSTagger: un conjunto de herramientas robusto, fácil de usar e independiente del idioma para POS y etiquetado morfológico.

(Lenguaje de programación: Python & Java)

RDRPOSTagger obtiene un rendimiento rápido, tanto en el aprendizaje y el proceso de etiquetado. Además, RDRPOSTagger logra una precisión muy competitiva en comparación con los resultados más avanzados. Consulte los resultados experimentales, incluida la velocidad de rendimiento y la precisión de marcado en this paper.

RDRPOSTagger ahora es compatible con POS preformados y modelos de etiquetado morfológico para 13 idiomas, incluidos tailandés y vietnamita.