Estoy mirando para extraer nombres y lugares de ráfagas muy cortas de texto ejemplo¿Debo usar LingPipe o NLTK para extraer nombres y lugares?
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
Estos datos se encuentra actualmente en una base de datos MySQL, y yo (más o menos) tienen un registro separado para cada atleta, aunque los nombres a veces se deletrean mal, etc.
Me gustaría extraer los atletas y las ubicaciones. Normalmente trabajo en PHP, pero no he podido encontrar una biblioteca para la extracción de entidades (y es posible que desee profundizar en algunos NLP y ML en el futuro).
De lo que he encontrado, LingPipe y NLTK parecen ser los más recomendados, pero no puedo entender si alguno de ellos realmente se adapta a mi propósito, o si algo más sería mejor.
No he programado ni en Java ni en Python, así que antes de comenzar a aprender nuevos idiomas, espero obtener algunos consejos sobre qué ruta debo seguir u otras recomendaciones.
"... una mesa separada para cada atleta ..." ¿tal vez te refieres a un _record_ para cada atleta? (Eso sería una gran cantidad de tablas de lo contrario ...) – mjv
sí! ¡idiomas/módulos sería el menor de mis problemas si tuviera una mesa separada para cada atleta! Gracias por señalar eso. – pedalpete