Las sugerencias de Dave son un gran comienzo. Sphinx es muy ingenioso.
Solo quiero agregar que debe ser lo más probable posible. Como lingüista de una sola vez e incluso anterior aficionado a la fonología, puedo decir con confianza que no me atrapen con los modelos lingüísticos. No olvidemos lo mal atribuido a menudo: "cada vez que disparo a un lingüista, mi precisión aumenta". Realmente se trata del modelo y sus capacidades para explicar el ruido y la variación en lugar de cualquier cosa que un experto en artes liberales del MIT tenga que decir.
Un buen libro para recoger sería Jurafsky and Martin "Speech and Language Processing". Tiene algunas aplicaciones muy útiles de modelos computacionales para la tarea. El trabajo de Harvey Sussman sobre las correlaciones lineales en las pendientes F2 para una variedad de vocales (comenzando con las lechuzas comunes y trabajando su camino hacia los humanos) parece que sería bueno implementarlo en uno de estos días.