2009-12-22 28 views

Respuesta

8

voy a responder a la parte de reconocimiento de voz (ya que no sé mucho de texto-a-voz):

http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

Este libro, "Métodos estadísticos para reconocimiento de voz" es un clásico que explica los fundamentos matemáticos del reconocimiento estadístico del habla, escrito por el fundador de esa área, Frederick Jelinek.

El concepto más importante que debe saber es Hidden Markov Models. La gente los ha usado en reconocimiento de voz durante décadas. Un enfoque reciente usa Conditional Random Fields, consulte paper (PDF) y el kit de herramientas de software asociado SCARF.

Es bastante difícil escribir su propio reconocedor de voz. Es un área de investigación activa con varias conferencias científicas, p. ASRU, Interspeech, ICASSP.

3

Ya que menciona MS -

Sólo debe buscar en el sitio Microsoft Speech. Contiene muchos recursos para tratar el habla, incluido el TTS y el reconocimiento de voz.

3

Si está buscando un código real, consulte Sphinx, un proyecto de reconocimiento de voz de fuente abierta de CMU. No está escrito en C++, pero si le interesan los algoritmos, ha implementado muchas cosas de las que puede aprender. (Me gustaría hacer eco del punto de @ dehmann, también: leer en modelos ocultos de markov.)

6

Ambas son áreas muy amplias. Acerca del reconocimiento: en este this schema, encontrará cómo crear un sistema básico de reconocimiento de voz automático. De ninguna manera está cerca del inicio de la técnica, pero es algo alcanzable y funciona. Si quieres hacer algo más avanzado, lee sobre los coeficientes cepstrales y los modelos ocultos de Markov. Eche un vistazo a HTK, es un kit de herramientas ampliamente utilizado para Hidden Markov Models.

Acerca de texto a voz: echaría un vistazo a Festival.

4

Hay múltiples esfinges. Los principales activos son pocketsphinx y sphinx4.

Sphinx4 está escrito en Java. Es mejor para aplicaciones de escritorio y web.

Pocketsphinx está escrito en C. Es mejor para dispositivos integrados. Hay aplicaciones de iphone/android que lo usan.

Parece que quieres Pocketsphinx. Pruebe este tutorial: http://www.speech.cs.cmu.edu/sphinx/tutorial.html

Un mejor lugar para formular las preguntas de pocketsphinx/sphinx4 es en el foro de sourceforge de CMU.

También debe proporcionar más información como lo que pretende hacer.

cuanto a los libros, la biblia de reconocimiento de voz es "procesamiento del lenguaje hablado"

+0

¿hay alguna instrucción sobre cómo ejecutar PocketSphinx en Android? (vea esta pregunta: http://stackoverflow.com/questions/2920870/pocket-sphinx-on-android) – gregm

1

Si eres curioso acerca de qué hacer con su reconocimiento de voz de fantasía debe leer: Voz diseño de interacción por Randy Allen Harris

Proporciona algunos buenos consejos sobre cuándo usar Voice y cómo usarlo en una aplicación.