De hecho, tuve que buscar un problema similar hace un par de años Cuando comencé el proyecto, no tenía idea de dónde comenzar, así que espero poder salvarte a alguien más en la misma situación, en algún momento.
La línea de fondo es que puedes aprovechar una gran cantidad de trabajo hecho en otros campos. El más importante de estos campos, encontré, es Nombre de dominio Registro.
Por ejemplo, el sitio DomainTools tiene un 'Domain Typo Generator', que funciona mediante la generación de una lista de errata nombres de dominio, basado en un nombre de dominio principal de que su intro.
Dado que profesionales titulares de nombres de dominio (AKS ocupantes) representan una gran parte de los negocios de cualquier registrador, es fácil ver que esta herramienta está diseñada para (es decir, los ocupantes están interesados en adquirir los errores tipográficos comunes de alto tráfico nombres de dominio: incluso una tasa de error del 2% para un nombre de dominio de alto tráfico es mucho tráfico para un nombre de dominio typo.
Además, recomendaría la extraordinariamente completa 2005 Study de este número de Microsoft Research.
Por último, hay un concepto clave en lingüística computacional derivado de la Levenshtein Distancia, llamado Damerau-Levenshtein distance, que se extiende la idea básica de la Levenshtein básica de distancia de edición al problema particular de los seres humanos a escribir en un teclado .
La principal conclusión de su trabajo de investigación 1964 fue que 80% de todos los errores tipográficos puede ser descrito por una de las cuatro operaciones --insertion, supresión, sustitución de un solo carácter, o transposición de dos caracteres.
Damerau no solo distinguió estas cuatro operaciones de edición, sino que también afirmó que corresponden a más del 80% de todos los errores ortográficos humanos. (El único enlace que proporcioné para DL es el artículo de Wikipedia; lo hice porque creo que esta es una introducción excelente y breve además de que contiene un pseudocódigo para el algoritmo DL, y finalmente el artículo proporciona enlaces a las principales fuentes en línea para DL.
¿Estás buscando esto? http://en.wikipedia.org/wiki/Dvorak_Simplified_Keyboard –
Creo que el problema. debe ser condicional, es mucho más útil de esa manera. También es un problema más difícil, pero Google apuesta mucho por la probabilidad condicional. Lo siento, esto suena vago. Simplemente desempeña un papel importante para ayudar a los usuarios a buscar, deletrear, traducir entre idiomas, etc. http://www.youtube.com/watch?v=Sx3Fpw0XCXk –
No, no lo creo, pero ahora quiero aprender cómo escribir usando "programador con una mano dvorak". –