2009-09-11 34 views
14

estoy trabajando en un programa de análisis del lenguaje natural que examina una frase en Inglés y extrae algo de información como nombre, fecha, etc.fecha y la hora del Lenguaje Natural analizador para Java

por ejemplo: "Lets reunirse el próximo martes a las 5 . PM en la playa "

Así que la salida será algo así como:" Deja la reunión 15/09/2009 a las 17:00 h en la playa "

Así que, básicamente, lo que quiero saber es que ¿hay algún framework o libr Está disponible para JAVA para realizar este tipo de operaciones, como analizar las fechas de una oración y dar una salida con algún formato especificado.

Saludos, Pranav


Gracias por las respuestas. He buscado en algunos PNL como LingPipe, OpenPL, Stanford NLP. Quería preguntar si tienen algo para analizar la fecha de Java.

+0

bump! También tengo este problema y las soluciones propuestas no parecen responderlo –

+0

FYI, un duplicado posterior de esta pregunta, [Biblioteca de análisis de fecha genérica a partir de texto no estructurado] (http://stackoverflow.com/q/14824782/642706) –

Respuesta

0

No creo que haya ningún marco que lo haga de la caja. Lo que puedes hacer es crear un conjunto de expresiones regulares para que coincidan con esos patrones.

1

¿Has probado jchronic? Sin embargo, dudo que ninguna biblioteca pueda trabajar directamente con oraciones: tendrías que extraer fragmentos de oraciones y alimentarlos a un marco de análisis de fechas NLP, tal vez en una base de prueba y error (fragmentos cada vez mayores hasta que el marco arroje un error).

22

Natty es un muy buen reemplazo para JChronic.

+7

Juro que Natty maneja casi todo. Por ejemplo, '2 miércoles a partir de ahora' no puede ser analizado por ninguna otra solución que haya encontrado. +1 – DMan

+1

Tengo un sistema en el que estoy recibiendo cadenas de las que necesito (sobre una base mejor) eliminar URLs, cualquier cosa que pueda ser HTML y cualquier cosa que pueda ser una fecha. He encontrado que Natty es excelente para el último, pero he creado excepciones para abril, mayo y junio, que son nombres válidos para niñas. – Stewart

+5

Parece que Natty tiene un problema con formatos conflictivos. Pruebe '15/12/2004'. Lo considera como "hoy, hora 15". – nawfal

0

Sugeriría usar UIMA con OpenNLP conectores y las mismas reglas hechas a mano de expresiones regulares.

0

Escribí una secuencia de comandos NLP en Python's NLTK y alimenté los resultados a Ruby's chronic.

Cuestiones relacionadas