2009-01-18 20 views
5

Estoy planeando iniciar una aplicación que convierta el discurso a texto en Linux. ¿Hay alguna interfaz existente para poder extenderla? o ¿Existe alguna aplicación existente en Linux? ¿Alguna entrada en esto?Conversión de voz a texto en Linux

EDITAR: La aplicación que planeo escribir debería poder convertir cada palabra que hablamos al texto, no solo el Sí/No.

Respuesta

8

Bueno, este es un proyecto muy grande y sin decir lo que la tecnología que desea utilizar, aquí hay algunos enlaces:

Buena suerte. Con más detalles, podemos proporcionar mejores respuestas. Por ejemplo, hay una gran diferencia entre el reconocimiento del estilo de centro de llamadas "sí/no" e incluso el entendimiento parcial del lenguaje natural.

3

Las sugerencias de Dave son un gran comienzo. Sphinx es muy ingenioso.

Solo quiero agregar que debe ser lo más probable posible. Como lingüista de una sola vez e incluso anterior aficionado a la fonología, puedo decir con confianza que no me atrapen con los modelos lingüísticos. No olvidemos lo mal atribuido a menudo: "cada vez que disparo a un lingüista, mi precisión aumenta". Realmente se trata del modelo y sus capacidades para explicar el ruido y la variación en lugar de cualquier cosa que un experto en artes liberales del MIT tenga que decir.

Un buen libro para recoger sería Jurafsky and Martin "Speech and Language Processing". Tiene algunas aplicaciones muy útiles de modelos computacionales para la tarea. El trabajo de Harvey Sussman sobre las correlaciones lineales en las pendientes F2 para una variedad de vocales (comenzando con las lechuzas comunes y trabajando su camino hacia los humanos) parece que sería bueno implementarlo en uno de estos días.

1

Sphinx es su mejor apuesta en Linux. He probado Sphinx II y Sphinx III. Hay algunos modelos de lenguaje de fuente abierta y acústicos disponibles que se pueden usar con cada uno de ellos. No es un rendimiento de nivel de producción en absoluto, pero lo suficientemente bueno para la creación de prototipos o demo. Para la producción, deberá desarrollar su propio lenguaje y modelos acústicos.