2010-07-01 25 views
15

Tengo que analizar el texto informal en inglés con muchas manos cortas y jerga local. Por lo tanto, estaba pensando en crear el modelo para stanford tagger.¿Cómo creo mi propio corpus de entrenamiento para stanford tagger?

¿Cómo puedo crear mi propio conjunto de corpus etiquetado para el stanford tagger para entrenar?

¿Cuál es la sintaxis del corpus y cuánto tiempo debe estar mi corpus para lograr un rendimiento deseable?

+0

¿Qué componente: Stanford PoS tagger, Stanford NER o Stanford Parser? –

+0

Estimado goh, tengo la misma pregunta ¿podría resolver su problema? ¿cómo? – Paniz

Respuesta

7

para entrenar el etiquetador, ver this mailing list post que también se incluye en el JavaDocs para la clase MaxentTagger.

Los javadocs para el edu.stanford.nlp.tagger.maxent.Train class especifica el formato de entrenamiento:

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

+0

Comprobé en todas partes pero no especifica cómo estructurar el archivo de entrenamiento? ¿Y cuánto tiempo debería ser mi modelo de entrenamiento? – goh

+0

@goh: He respondido con una edición. –

+0

gracias por la ayuda. – goh

1

Para el analizador de Stanford, utilice Penn treebank format, y vea Stanford's FAQ sobre los comandos exactos que debe usar. Los JavaDocs para el LexicalizedParser class también dan a los comandos apropiados, en particular:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename 
6

Esencialmente, los textos que formato para el proceso de formación debe tener una ficha en cada línea, seguida de una ficha, seguido de un identificador. El identificador puede ser algo así como "LOC" para ubicación, "COR" para corporación, o "0" para tokens no entidad. P.ej.

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0 

Cuando nuestro equipo entrenado una serie de clasificadores, que alimenta cada archivo con formato de una formación de este tipo con aproximadamente 180.000 fichas, y vimos una mejora neta de la precisión, pero una disminución neta en el recuerdo. (Vale la pena señalar que el aumento en la precisión no fue estadísticamente significativo.) En caso de que pueda ser útil para otros, describí el proceso que utilizamos para entrenar el clasificador, así como los valores p, r y f1 de ambos, entrenados y por defecto clasificadores here.

0

me trataron: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -Train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

Pero tenía el error:

Error: No se pudo encontrar o cargar la clase principal edu.stanford.nlp.parser.lexparser.LexicalizedParser

Cuestiones relacionadas