Planeo escribir un programa para Linux que use el reconocimiento de texto a voz y voz. ¿Cuáles son las mejores herramientas/bibliotecas para esto? ¿Debería usar Windows para poder usar mejores herramientas? Las herramientas deben poder llamarse fácilmente desde una consola o programa C.Necesito herramientas de reconocimiento de texto a voz y voz para Linux
Respuesta
Para el reconocimiento de voz existen varios Sphinxes. Las diferentes variantes tienen diferentes pros y contras, hay una comparación aquí Comparison of Sphinx versions. Sphinx 4 es Java, pero los otros son C, creo.
Sé espeak es un muy buen programa de texto a voz para Linux (incluso puede hacer diferentes acentos!), Pero no conozco ningún sistema de reconocimiento de voz diseñado para UNIX.
Para reconocimiento de voz, existe muy poco para linux. Solo estaba al tanto de una opción aparentemente decente, algo que IBM lanzó hace algunos años pero que luego dejó de estar disponible (¿alguien sabe si este ViaVoice SDK todavía es posible de conseguir desde cualquier lugar?). Hay más información sobre las opciones posibles en wikipedia.
ViaVoice SDK. Nunca estuvo en pleno lanzamiento, y los documentos exigían un rango bastante estrecho sobre los números de versión del kernel 2.4. Lo jugué para quitarme algo de tipeo cuando tenía tedonitis intermitente en las muñecas, pero no tuve suerte ... – dmckee
Depende bastante de qué discurso está tratando de reconocer.
Este es un artículo de 2005 que explica algunas de las dificultades para crear un programa de dictado: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html. Si lo desea, el motor de reconocimiento de voz Julius parece prometedor, pero deberá agregar sus propios modelos acústicos y de lenguaje. Es posible que pueda utilizar el modelo acústico voxforge.
Si no está tratando de escribir un programa de dictado, entonces tiene una tarea mucho más fácil. Los programas de comando tienen vocabularios limitados, por ejemplo 'Si desea continuar en inglés, diga' Inglés ''.
que fue capaz de obtener muy buenos resultados utilizando pocketsphinx y gstreamer para hacer a program que edita automáticamente la mayoría de las apariciones de la palabra "twitter" fuera de la TWiT podcast. No funcionó en absoluto hasta que utilicé mi propio modelo de lenguaje basado en las transcripciones del podcast; las transcripciones de la máquina del reconocedor de voz son inútiles/hilarantes, pero hacen un buen trabajo al encontrar la palabra clave.
¿tienes alguna experiencia con el uso de pocketsphinx y gstreamer con tcpserversrc/client? – si28719e
no, pero gstpocketsphinx + tcpserversrc/sink no debe ser diferente de cualquier otro elemento gstreamer + tcpserversrc/sink. – joeforker
parece que el enlace a su programa "twitterkiller" está roto. –
en & t kit de herramientas FSM también es bastante impresionante - no al uso comercial permitido, sin embargo,
Esto es un poco viejo, pero vi que una guía bastante completa sobre el reconocimiento de voz en Hackaday unos días hace: http://hackaday.com/2010/07/09/get-started-with-speech-recognition/
http://simon-listens.org/ - programa de código abierto reconocimiento de voz/voz Simon
y TH es hay mbrola para texto a voz.
La pregunta original era acerca de encontrar bibliotecas adecuadas, lo sé, pero desde el punto de vista del uso de reconocimiento de voz lo suficientemente bueno para el dictado real, parece que no hay nada para Linux (aunque estoy seguro de que cambiará a tiempo, Sospecho que tomará un tiempo, ya que no estoy seguro de que muchas personas estén interesadas).
En el momento que estoy tratando de promover Dragon NaturallySpeaking como un producto con el apoyo de CodeWeavers ... así que si usted está interesado como un usuario que ayudaría si desea emitir un voto ...
http://www.codeweavers.com/compatibility/browse/name/?app_id=8427
¿Ha comprobado la síntesis de voz basada en HMM para texto a voz. Puede encontrar la demo gratuita en el sitio web http://hts.sp.nitech.ac.jp/. La instalación será un poco tediosa.
para Debian/Ubuntu de texto-a-voz también hay SVOX Pico:
sudo apt-get install libttspico-utils
- 1. API de texto a voz (generación de voz) y de voz a texto (reconocimiento de voz)?
- 2. reconocimiento de voz Java
- 3. ¿Qué bibliotecas de reconocimiento de texto a voz y voz están disponibles para Clojure?
- 4. C# reconocimiento de voz
- 5. Reconocimiento de voz para android
- 6. C# Reconocimiento de voz
- 7. C# reconocimiento de voz
- 8. Windows 8 voz a texto y texto a voz API
- 9. ¿Cómo implementar reconocimiento de voz y texto a voz en C++?
- 10. Conversión de voz a texto en Linux
- 11. Reconocimiento de voz en iPhone
- 12. Reconocimiento de rostro humano, emoción y voz
- 13. Reconocimiento de voz en Kinect
- 14. Reconocimiento de voz en PHP?
- 15. Reconocimiento continuo de voz Android
- 16. Gramática simple para el reconocimiento de voz
- 17. Texto a voz
- 18. Reconocimiento de voz sin Internet en Android
- 19. Usar texto a voz en una llamada de voz
- 20. Velocidad de reconocimiento de voz de Microsoft
- 21. Vista Reconocimiento de voz en Delphi
- 22. Reconocimiento continuo de voz mientras canta?
- 23. API de reconocimiento de voz Java
- 24. Marco de reconocimiento de voz para iOS que admite español
- 25. Mejore el reconocimiento de voz, C#
- 26. iPhone App> ¿Agregar reconocimiento de voz?
- 27. Reconocimiento de voz a través de un puerto USB
- 28. Texto a voz en Quizlet.com
- 29. Android vietnamita ¿Texto a voz?
- 30. Voz a texto en Android
Si se va a utilizar Festival, debe instalar las voces alternas. Las instrucciones (para debian/ubuntu) están aquí: http://ubuntuforums.org/showthread.php?t=677277 –
¿Cómo fue tu experiencia con Loquendo? Si está dispuesto, me gustaría hacerle un par de preguntas al respecto por correo electrónico. – philfreo