14

¿Existe una lista completa de API conocidas para entornos de escritorio o de navegador?API de texto a voz (generación de voz) y de voz a texto (reconocimiento de voz)?

+0

Esa es una pregunta muy amplia. ¿Le interesan las API o las implementaciones? ¿Hay alguna elección de idioma o plataforma que pueda hacer para limitar esto? –

+0

Sé que hay muy pocas buenas soluciones, así que decidí elegir la plataforma (en un sentido amplio) y el lenguaje de programación basado en la disponibilidad de un buen texto a voz y de voz a texto para ellos. – Halst

Respuesta

29

Rehago y actualizo una respuesta de Speech recognition in C or Java or PHP?. Esto no es en absoluto exhaustiva, pero podría ser un comienzo para usted


Desde ver a estas preguntas para unos meses, he visto la mayoría de las opciones de desarrollador se descomponen así:

gente de Windows - uso las características de System.Speech de .Net o Microsoft.Speech e instale los reconocedores gratuitos que proporciona Microsoft. Windows 7 incluye un motor de voz completo. Otros se pueden descargar gratis. Hay una API C++ para los mismos motores conocidos como SAPI. Ver en http://msdn.microsoft.com/en-us/magazine/cc163663.aspx. o http://msdn.microsoft.com/en-us/library/ms723627(v=vs.85).aspx. Más información sobre los motores de Microsoft para Windows What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition?

Linux personas - Sphinx parece tener muchos seguidores. Ver http://cmusphinx.sourceforge.net/ y http://cmusphinx.sourceforge.net/wiki/

productos comerciales - Nuance, Loquendo, AT&T, IBM, otros. Cada uno proporciona sus propios SDK y bibliotecas para varios idiomas.

Servicio en línea - Nuance, Yapme, ispeech.org, vlingo, otros. Nuance ha mejorado su programa de desarrollo y ahora le dará free access to their services para su desarrollo. Yap (creo) fue recientemente purchased by Amazon, por lo que podemos ver algunos cambios allí.

Por supuesto, esto también puede ser útil - http://en.wikipedia.org/wiki/List_of_speech_recognition_software

Hay una API de voz Java. Consulte javax.speech.recognition en Java Speech API http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html. Creo que todavía tiene que encontrar un motor de voz que admita esta API. No creo que lo apoya plenamente Sphinx - http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#support_jsapi

Hay un montón de otros SO quesitons: Need text to speech and speech recognition tools for Linux y pyspeech (python) - Transcribe mp3 files? que habla de http://code.google.com/p/pyspeech/. Es posible que también desee consultar http://code.google.com/p/dragonfly/

+1

Otro servicio en línea no oficial que te perdiste es el Speech API de Google. Aquí hay un enlace a algunos enlaces de API en Java: https://github.com/The-Shadow/java-speech-api – Skylion

+2

No creo que Google haya hecho públicamente su API de voz. La gente lo ha diseñado y utilizado de forma inversa, pero no creo que Google lo soporte para el uso de terceros. Creo que solo está destinado a ser utilizado por el navegador Chrome o el sistema operativo Android. Consulte http://stackoverflow.com/a/12727910/90236 o http://stackoverflow.com/a/7889565/90236 –

+0

La API de Google es accesible de forma gratuita en Chrome. La implementación de mi aplicación web: https://speechlogger.appspot.com –

2

Los principales proveedores de API de texto a voz (generación de voz) son YAKiToMe! e iSpeech. YAKiToMe! es el que uso porque me gusta más su calidad de voz y son los menos caros (mayormente gratuitos). Admiten parlantes masculinos y femeninos en varios idiomas. Algunos de los vendedores de voz, como Acapella, Nuance, Loquendo e iVona tienen voces decentes, pero tienden a ser caros de usar.

1

Así es como puedes hacerlo: Nota: es una API de Google, por lo que solo funciona en el navegador Chrome.

(Ver demostración en vivo y descargar el código fuente completo aquí http://purpledesign.in/blog/?p=33)

definir un botón

<input id="speech" type="text" speech="speech" x-webkit-speech="x-webkit-speech" onspeechchange="processspeech();" onwebkitspeechchange="processspeech();" /> 

y definir lo que quiere hacer en una función en el archivo javascript

como esto

function processspeech() 
    { 
    var speechtext=$("#speech").val(); 
    var elem = document.getElementById("test"); 
    elem.value = speechtext; 
    var notification="\"<span style=\"color:#F00; text-transform:uppercase;\">"+ speechtext + "</span>\" <br />*Is this what you said???"; 
    notify(notification); 
} 

Aquí

<textarea> id="test"></textarea> 

El discurso está escrito en el área de texto

+1

El enlace dirige a una página alojada vacía. –