He leído un documento que utiliza el recuento Ngram como función de un clasificador, y me preguntaba lo que esto significa exactamente.¿Cuáles son los recuentos Ngram y cómo implementar usando NLTK?
Ejemplo de texto: "Lorem ipsum dolor sit amet, elitr consetetur sadipscing, diam sed"
puedo crear unigrams, bigramas, trigramas, etc. fuera de este texto, donde tengo que definir en qué "nivel "para crear estos unigrams. El "nivel" puede ser de carácter, sílaba, palabra, ...
¿Entonces crear unigramas de la oración anterior simplemente crearía una lista de todas las palabras?
¿Crear birams dará como resultado pares de palabras que junten palabras que se suceden?
De modo que si el documento habla acerca de los recuentos de ngram, simplemente crea unigrams, bigrams, trigrams, etc. del texto, y cuenta con qué frecuencia se produce ngram?
¿Existe un método existente en el paquete nltk de python? ¿O debo implementar una versión propia?
suya es una interpretación común, pero la unidad "gramo" podría ser, por ejemplo bytes o caracteres, también. Entonces el personaje de 3 gramos de "lorem" podría ser "lor" y "em" o incluso "lor", "ore", "rem" si usa una ventana deslizante. – tripleee