2011-07-20 32 views
5

He terminado de recopilar mis datos que planeo usar para mi corpus, pero estoy un poco confundido acerca de si debo normalizar el texto. Planeo marcar & en pedazos el corpus en el futuro. Algunos de los corpora de NLTK son todos minúsculas y otros no.NLTK - ¿Cuándo se debe normalizar el texto?

¿Alguien puede arrojar algo de luz sobre este tema, por favor?

Respuesta

8

¿Por "normalizar" solo quiere decir que todo sea minúsculo?

La decisión acerca de si en minúsculas todo lo que es realmente depende de lo que va a hacer. Para algunos propósitos, reducir las letras en todo es mejor porque reduce la dispersión de los datos (las palabras en mayúsculas son más raras y pueden confundir el sistema a menos que tenga un corpus masivo tal que las estadísticas en palabras en mayúscula sean decentes). En otras tareas, la información del caso puede ser valiosa.

Además, hay otras consideraciones que tendrá que hacer que son similares. Por ejemplo, debe ser entendido como "can't"["can't"], ["can", "'t"], o ["ca", "n't"] (he visto los tres en diferentes corpus). ¿Qué hay de 7-year-old? ¿Es una palabra larga? O tres palabras que deberían separarse?

Dicho esto, no hay razón para volver a formatear el corpus. Puede hacer que su código realice estos cambios sobre la marcha. De esa forma, la información original aún se encuentra más tarde si alguna vez la necesita.

+4

"Para la mayoría de los propósitos" no es cierto: los clasificadores de texto querrán entrada en minúsculas, pero grafiteros de punto de venta, módulos analizadores NER y utilizar la información del caso a su favor. NER es prácticamente imposible sin información de caso (al menos para inglés). –

+0

@larsmans Buenos puntos. Todas las cosas buenas en las que pensar al tratar de decidir qué quieres hacer con tus datos. – dhg

+0

Las diferencias en "no se puede" se deben al tokenizador elegido/predeterminado, y no deberían reflejarse en el texto del corpus sin formato real. Pero definitivamente es algo importante en lo que pensar, y es por eso que puse una demostración de tokens de NLTK en http://text-processing.com/demo/tokenize/, así que es más fácil decidir qué tokenizer usar. – Jacob

Cuestiones relacionadas