Creo que lo que Amazon llama "Frases estadísticamente improbables" son palabras que son improbables con respecto a su enorme corpus de datos. En efecto, incluso si una palabra se repite 1000 veces en un libro A dado, si ese es el único lugar donde aparece, entonces es un SORBO, porque la probabilidad de que aparezca en un libro dado es nulo (porque es específico para el libro A). Realmente no se puede duplicar esta gran cantidad de datos para comparar información, a menos que trabajes con muchos datos.
¿Qué es una gran cantidad de datos? Bueno, si estás analizando textos literarios, entonces querrás descargar y procesar un par de miles de libros de Gutenberg. Pero si está analizando textos legales, entonces tendría que alimentar específicamente el contenido de los libros legales.
Si, como probablemente sea el caso, no tiene muchos datos como un lujo, entonces tiene que confiar, de una forma u otra, en el análisis de frecuencia. Pero en lugar de considerar las frecuencias relativas (fracciones del texto, como a menudo se considera), considere las frecuencias absolutas.
Por ejemplo, Hápax también conocido en el dominio de análisis de red como 1-ratones, podría ser de particular interés. Son palabras que solo aparecen una vez en un texto dado.Por ejemplo, en el de James Joyce Ulysses, estas palabras solo aparecen una vez: postexilico, corrosivo, romanys, macrocosmos, diaconal, compresibilidad, aungier. No son frases estadísticamente improbables (como sería "Leopold Bloom") por lo que no caracterizan el libro. Pero son términos que son lo suficientemente raros que solo aparecen una vez en la expresión de este escritor, por lo que puede considerar que caracterizan, de alguna manera, su expresión. Son palabras que, a diferencia de las palabras comunes como "el", "color", "malo", etc., expresamente intentó usar.
Así que estos son un artefacto interesante, y es que son bastante fáciles de extraer (piense en O (N) con memoria constante), a diferencia de otros indicadores más complejos. (Y si quiere elementos que son ligeramente más frecuentes, puede recurrir a 2 ratones, ..., 10 ratones que son igualmente fáciles de extraer).
+1, esto es muy interesante, ¡gracias! –
Funciona bastante bien en el libro de Darwin, pero en el Ulises de Joyce, produce algunos resultados un poco menos útiles: yo, dije, tú, ella, ella, bloom, mr, project, me ... son las primeras diez palabras. Si se extiende a los próximos cuarenta, obtiene: mulligan, es, joe, buck, he, was, it, que, citizen, eglinton, douce, my, like, j, cissy, o, we, tap, omolloy, deasy , que, tenía, alf, también, conmee, gutenberg, haines, myles, martin, kennedy, fuera, su, tu, ellos, ned, gerty, hes, lenehan, edy ... Por cierto, me doy cuenta de que no lo hice t quitar la logorrea del Proyecto Gutenberg lo suficientemente bien !! –