2012-09-25 20 views
6

Tengo un montón de documentos de texto que describen enfermedades. Esos documentos son en la mayoría de los casos bastante cortos y a menudo solo contienen una sola oración. Un ejemplo se da aquí:Enfermedad llamada reconocimiento de entidad

hipertensión pulmonar primaria es una enfermedad progresiva en la que la oclusión generalizada de las arterias pulmonares más pequeñas conduce a un aumento de la resistencia vascular pulmonar e insuficiencia ventricular posteriormente derecha.

Lo que necesito es una herramienta que busca todos los términos de la enfermedad (por ejemplo, "hipertensión pulmonar" en este caso) en las frases y los asigna a un vocabulario controlado, como MeSH.

¡Gracias de antemano por sus respuestas!

+1

Eso suena muy específico y no es un problema de programación * per se *. Al menos no como se expresa aquí. –

+1

Parece que esto es más una cuestión de minería de datos? – Harpal

Respuesta

2

hay muchas herramientas para hacerlo. algunos de los más populares:

más de ellos vienen con algunos modelos predefinidos, es decir, ya han sido entrenados en algún conjunto de datos generales s (artículos de noticias, etc.). sin embargo, sus textos son bastante específicos, por lo que es posible que primero desee constituir un corpus y volver a entrenar una de esas herramientas, para ajustarlo a sus datos.

más simplemente, como primera prueba, puede probar un enfoque basado en el diccionario: diseñe una lista de nombres de entidades y realice una coincidencia exacta o aproximada. por ejemplo, esta operación está descrita en LingPipe's tutorial.

6

Éstos son dos tuberías que están diseñados específicamente para el análisis del documento médico:

Tanto el uso de UMLS, el sistema de lenguaje médico unificado, y por lo tanto requieren que tenga una licencia (gratuita). Ambos son Java y más o menos fáciles de configurar.

+2

No estoy seguro de que los clasifique como "fáciles de configurar", pero funcionan bastante bien.También se lanzó una nueva versión de MetaMap a fines del año pasado. –

Cuestiones relacionadas