Estoy tratando de extraer entidades con nombre del texto en holandés. Usé nltk-trainer para entrenar a un etiquetador y un chunker en el corpus holandés conll2002. Sin embargo, el método de análisis de chunker no detecta ninguna entidad con nombre. Aquí está mi código:Reconocimiento de entidad con nombre NLTK en holandés
str = 'Christiane heeft een lam.'
tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')
str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags
str_chunks = chunker.parse(str_tags)
print str_chunks
Y la salida de este programa:
[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)
que estaba esperando Christiane para ser detectado como una entidad nombrada. ¿Alguna ayuda?
Lo que sucede cuando "Christiane" aparece en el medio de la oración? –
@larsmans No hay entidades tampoco. Incluso intenté con una oración del corpus de entrenamiento, pero no tuve suerte. Utilicé el train_chunker.py en el corpus conll2002 (ned.train) – user1491915
¿Puedes mostrar exactamente cómo usaste train_chunker.py? Mi demostración en http://text-processing.com/demo/tag/ reconoce a Christiane, por supuesto que utilicé train_chunker en conll2002, por lo que debe haber una diferencia en los argumentos de entrenamiento. – Jacob