¿Alguien sabe la forma más fácil de extraer solo los nombres de un cuerpo de texto?Extraiga los nombres de los textos (Java)
He oído hablar del TreeTagger tool y traté de darle una oportunidad pero no pude hacerlo funcionar por alguna razón.
¿Alguna sugerencia?
Gracias Phil
EDIT:
import org.annolab.tt4j.*; TreeTaggerWrapper tt = new TreeTaggerWrapper(); try { tt.setModel("/Nouns/english.par"); tt.setHandler(new TokenHandler() { void token(String token, String pos, String lemma) { System.out.println(token+"\t"+pos+"\t"+lemma); } }); tt.process(words); // words = list of words } finally { tt.destroy(); }
Esa es mi código, el Inglés es el idioma. Recibí el error: el tipo nuevo TokenHandler() {} debe implementar el método abstracto heredado TokenHandler.token. ¿Estoy haciendo algo mal?
mente para explicar exactamente lo que no funcionó con TreeTagger? –
¿Podría especificar su problema? Especialmente el lenguaje sería bueno saberlo ... El alemán, por ejemplo, tiene la agradable ventaja de que todos los sustantivos tienen la primera letra en mayúscula. – Chris
No estoy familiarizado con la API TreeTagger, pero comenzaría instanciando TokenHandler fuera de setHandler(), que podría dar un mensaje más claro. Mi suposición es que TokenHandler es abstracto, pero ... –