2010-08-10 19 views
10

Necesito encontrar una lista de las claves mal escritas en un teclado para un proyecto en el que estoy trabajando. Básicamente, necesito saber qué tecla está intentando presionar un usuario y qué tecla están presionando realmente y una medida comparativa de la frecuencia con la que esto sucede.¿Alguna estadística que exista en las claves mal escritas?

Por "medida comparativa" me refiero a que me gustaría poder decir que, conociendo que un usuario escribió mal la tecla "c", es más probable que presionen la tecla "x" frente a la tecla "v" (básicamente la columna "commonness" a continuación).

Mi lista ideal sería algo como lo siguiente para hacerte una idea de lo que estoy buscando.

Target Key Actual Key Commonness... 
---------- ----------- ------------- 
v    c   100 
v    b   95 
c    x   100 
c    v   90 

Y así sucesivamente ...

Alguien ha llegado a través de cualquier fuente de buena reputación por ahí que tienen todo lo que pueda proporcionar esta información? No he tenido suerte hasta ahora ...

+0

¿Estás buscando esto? http://en.wikipedia.org/wiki/Dvorak_Simplified_Keyboard –

+0

Creo que el problema. debe ser condicional, es mucho más útil de esa manera. También es un problema más difícil, pero Google apuesta mucho por la probabilidad condicional. Lo siento, esto suena vago. Simplemente desempeña un papel importante para ayudar a los usuarios a buscar, deletrear, traducir entre idiomas, etc. http://www.youtube.com/watch?v=Sx3Fpw0XCXk –

+0

No, no lo creo, pero ahora quiero aprender cómo escribir usando "programador con una mano dvorak". –

Respuesta

5

De hecho, tuve que buscar un problema similar hace un par de años Cuando comencé el proyecto, no tenía idea de dónde comenzar, así que espero poder salvarte a alguien más en la misma situación, en algún momento.

La línea de fondo es que puedes aprovechar una gran cantidad de trabajo hecho en otros campos. El más importante de estos campos, encontré, es Nombre de dominio Registro.

Por ejemplo, el sitio DomainTools tiene un 'Domain Typo Generator', que funciona mediante la generación de una lista de errata nombres de dominio, basado en un nombre de dominio principal de que su intro.

Dado que profesionales titulares de nombres de dominio (AKS ocupantes) representan una gran parte de los negocios de cualquier registrador, es fácil ver que esta herramienta está diseñada para (es decir, los ocupantes están interesados ​​en adquirir los errores tipográficos comunes de alto tráfico nombres de dominio: incluso una tasa de error del 2% para un nombre de dominio de alto tráfico es mucho tráfico para un nombre de dominio typo.

Además, recomendaría la extraordinariamente completa 2005 Study de este número de Microsoft Research.

Por último, hay un concepto clave en lingüística computacional derivado de la Levenshtein Distancia, llamado Damerau-Levenshtein distance, que se extiende la idea básica de la Levenshtein básica de distancia de edición al problema particular de los seres humanos a escribir en un teclado .

La principal conclusión de su trabajo de investigación 1964 fue que 80% de todos los errores tipográficos puede ser descrito por una de las cuatro operaciones --insertion, supresión, sustitución de un solo carácter, o transposición de dos caracteres.

Damerau no solo distinguió estas cuatro operaciones de edición, sino que también afirmó que corresponden a más del 80% de todos los errores ortográficos humanos. (El único enlace que proporcioné para DL es el artículo de Wikipedia; lo hice porque creo que esta es una introducción excelente y breve además de que contiene un pseudocódigo para el algoritmo DL, y finalmente el artículo proporciona enlaces a las principales fuentes en línea para DL.

+0

Información impresionante, gracias! –

0

No conozco ninguna fuente de estadísticas, pero parece que habría una gran diferencia entre (1) que alguien toque la tecla incorrecta debido a la mala colocación de los dedos, que la mayoría los mecanógrafos retroceden y corrigen inmediatamente sobre la marcha, por lo que las estadísticas sobre este tipo de eventos solo pueden capturarse en tiempo real en lugar de tabular lo que encuentran la mayoría de los correctores ortográficos, y (2) el mecanógrafo pulsa las teclas correctas pero en el orden incorrecto ("naem" en lugar de "nombre") debido a causas de velocidad/distracción/neurona, y (3) el mecanógrafo golpea las teclas equivocadas por no saber cómo deletrear ("mantenimiento" en lugar de "mantenimiento").

Para el caso n. ° 1, si the most common letters in English son E, T, A ... entonces es probable que esas sean también las claves más extraviadas, en ese orden, aunque eso no le dice a cuál de los vecinos le gusta "w" y "r" son los más afectados. Un mecanógrafo que intente obtener una clave de final de renglón como "a" podría, en realidad, presionar CAPS LOCK con la misma frecuencia que al presionar "s" incorrectamente.

Personalmente, es la no-alfa por lo general de menos, sobre todo si la caza y la ley del más fuerte para/v \, {vs [ "vs", coma vs periodo al escribir números con formato y la moneda, falta el cambio y conseguir 8 en vez de *, etc, etc., y dado que la tipificación no alfa es tan frecuente cuando se programa, esos casos son probablemente mucho más frecuentes para programadores que para no programadores.

+0

Interesante. Si bien tengo problemas con los no alfas, diría que entre los alfas son x, c, v con los que tengo más problemas que e, t, a.Sospecho que si bien estas podrían ser las letras más comunes, las mecanógrafas probablemente no presionen la tecla equivocada cuando las tipean debido a su ubicación y con qué frecuencia se usan. Avíseme si encuentra estadísticas confiables sobre esto. –

0

Probability Scoring for Spelling Correction de Church and Gale podría ayudar. En ese documento, los autores modelan los errores tipográficos como un canal ruidoso entre el autor y la computadora. El apéndice contiene tablas para errores tipográficos vistos en un corpus de publicaciones de Associated Press. para cada uno de los siguientes tipos de errores tipográficos:

  • deleción
  • inserción
  • sustitución
  • transposición

Por ejemplo, el examen de la tabla de inserción, podemos ver que l se insertó incorrectamente después de l 128 veces (el número más alto en esa columna). Usando estas tablas, puede números similares a los que desea.

+0

El enlace está roto. – xuhdev

1

clave más mal escrita en mi iPhone/Touch:

c de f! "Cred Clies crom Crance a Cinland en Cridays!"

Además, la barra de espacio para cualquiera de las letras en la fila inferior del teclado de iPhone:

"Bob liste s a Z superior a d un Hale."

Cuestiones relacionadas