2009-05-18 18 views

Respuesta

6

Para el reconocimiento de voz existen varios Sphinxes. Las diferentes variantes tienen diferentes pros y contras, hay una comparación aquí Comparison of Sphinx versions. Sphinx 4 es Java, pero los otros son C, creo.

-1

espeak es un muy buen programa de texto a voz para Linux (incluso puede hacer diferentes acentos!), Pero no conozco ningún sistema de reconocimiento de voz diseñado para UNIX.

4

He usado tanto Loquendo como Festival en linux. Consideraría las voces del festival que utilicé bastante pobres, con síntesis muy robótica. Las voces de Loquendo, por otro lado, son excelentes, de muy alta calidad.

+0

Si se va a utilizar Festival, debe instalar las voces alternas. Las instrucciones (para debian/ubuntu) están aquí: http://ubuntuforums.org/showthread.php?t=677277 –

+0

¿Cómo fue tu experiencia con Loquendo? Si está dispuesto, me gustaría hacerle un par de preguntas al respecto por correo electrónico. – philfreo

4

Para reconocimiento de voz, existe muy poco para linux. Solo estaba al tanto de una opción aparentemente decente, algo que IBM lanzó hace algunos años pero que luego dejó de estar disponible (¿alguien sabe si este ViaVoice SDK todavía es posible de conseguir desde cualquier lugar?). Hay más información sobre las opciones posibles en wikipedia.

+1

ViaVoice SDK. Nunca estuvo en pleno lanzamiento, y los documentos exigían un rango bastante estrecho sobre los números de versión del kernel 2.4. Lo jugué para quitarme algo de tipeo cuando tenía tedonitis intermitente en las muñecas, pero no tuve suerte ... – dmckee

5

Depende bastante de qué discurso está tratando de reconocer.

Este es un artículo de 2005 que explica algunas de las dificultades para crear un programa de dictado: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html. Si lo desea, el motor de reconocimiento de voz Julius parece prometedor, pero deberá agregar sus propios modelos acústicos y de lenguaje. Es posible que pueda utilizar el modelo acústico voxforge.

Si no está tratando de escribir un programa de dictado, entonces tiene una tarea mucho más fácil. Los programas de comando tienen vocabularios limitados, por ejemplo 'Si desea continuar en inglés, diga' Inglés ''.

que fue capaz de obtener muy buenos resultados utilizando pocketsphinx y gstreamer para hacer a program que edita automáticamente la mayoría de las apariciones de la palabra "twitter" fuera de la TWiT podcast. No funcionó en absoluto hasta que utilicé mi propio modelo de lenguaje basado en las transcripciones del podcast; las transcripciones de la máquina del reconocedor de voz son inútiles/hilarantes, pero hacen un buen trabajo al encontrar la palabra clave.

+0

¿tienes alguna experiencia con el uso de pocketsphinx y gstreamer con tcpserversrc/client? – si28719e

+0

no, pero gstpocketsphinx + tcpserversrc/sink no debe ser diferente de cualquier otro elemento gstreamer + tcpserversrc/sink. – joeforker

+0

parece que el enlace a su programa "twitterkiller" está roto. –

-2

La pregunta original era acerca de encontrar bibliotecas adecuadas, lo sé, pero desde el punto de vista del uso de reconocimiento de voz lo suficientemente bueno para el dictado real, parece que no hay nada para Linux (aunque estoy seguro de que cambiará a tiempo, Sospecho que tomará un tiempo, ya que no estoy seguro de que muchas personas estén interesadas).

En el momento que estoy tratando de promover Dragon NaturallySpeaking como un producto con el apoyo de CodeWeavers ... así que si usted está interesado como un usuario que ayudaría si desea emitir un voto ...

http://www.codeweavers.com/compatibility/browse/name/?app_id=8427

-1

¿Ha comprobado la síntesis de voz basada en HMM para texto a voz. Puede encontrar la demo gratuita en el sitio web http://hts.sp.nitech.ac.jp/. La instalación será un poco tediosa.

0

para Debian/Ubuntu de texto-a-voz también hay SVOX Pico:

sudo apt-get install libttspico-utils