Me gustaría saber de herramientas de código abierto (para java/python) que podrían ayudarme a extraer las características estilísticas semánticas & del texto. Ejemplos de características semánticas serían la relación adjetivo-sustantivo, una secuencia particular de etiquetas de parte del discurso (adjetivo seguido de un sustantivo: adj | nn) etc. Ejemplos de características estilísticas serían el número de palabras únicas, el número de pronombres, etc. Actualmente, sé solamente de Word to Web Tools que convierte un bloque de texto en el modelo de espacio vectorial rudimentario.Extracción de características semánticas/estilísticas del texto
Soy consciente de algunos paquetes de minería de texto como GATE, NLTK, Rapid Miner, Mallet y MinorThird. Sin embargo, no pude encontrar ningún mecanismo que se adaptara a mi tarea.
Saludos,
--Denzil
Amac, Gracias por la respuesta! El "modelo de espacio vectorial", aunque es un modelo muy robusto, es un modelo primitivo y depende más de las estadísticas. Me gustaría implementar un modelo más complejo usando conocimiento semántico a partir de texto como conceptos, etc. La publicación del blog podría ayudarme a extraer una secuencia de patrón POS utilizando Lucene; sin embargo, un paquete más liviano como NLTK (usando una expresión regular por supuesto) puede ayudarme realiza la misma tarea. Gracias por indicarme el paquete de vectores semánticos. Aunque no me ayuda directamente en mi tarea, consideraré su uso para otras tareas. – Dexter