Google STT
La actividad tiene como finalidad utilizar el servicio de Speech to Text de Google.
La configuración de la actividad requiere los siguientes parámetros
lang:
Define el código de idioma que se utilizará para el reconocimiento de voz. Por ejemplo, "en-US" para inglés estadounidense o "es-ES" para español de España. Este código determina en qué idioma se intentará interpretar el audio.
silence:
Especifica la cantidad de segundos de silencio que se deben detectar antes de considerar que la captura de audio ha finalizado. Un valor pequeño (por ejemplo, 2) indica que, si se detectan 2 segundos consecutivos sin voz, el sistema detendrá la grabación y procederá al reconocimiento de voz.
interruptKey (opcional):
Indica la(s) tecla(s) que, al ser presionada(s), interrumpirá(n) la grabación antes de que se detecte el silencio. Por defecto suele ser "#", pero puede configurarse cualquier dígito o combinación de dígitos y símbolos # o *. Por ejemplo, "any" significa que cualquier dígito o tecla interrumpe la grabación.
beep:
Define si se reproducirá o no un tono (beep) antes de iniciar la grabación. Por ejemplo, si se define "NOBEEP", no se reproducirá sonido al comenzar a grabar, mientras que, si se omite este parámetro o se deja vacío, se reproducirá un beep al inicio.
timeout:
Determina el tiempo máximo absoluto de grabación, en segundos. Una vez transcurrido este tiempo, la grabación se detendrá automáticamente, sin importar si se presionó alguna tecla de interrupción o no, o si se ha detectado silencio. Por ejemplo, un valor de 10 haría que la grabación finalice a los 10 segundos de iniciada.
speechContexts:
Permite proporcionar una lista de palabras o frases sugeridas que ayuden a la API de reconocimiento de voz a interpretar con mayor precisión ciertos términos. Se especifican generalmente como una cadena con palabras separadas por comas (ej. "Agamemnon,Midas"). Estos contextos facilitan el reconocimiento cuando se esperan términos poco comunes, nombres propios, o vocabulario especializado.
El resultado del reconocimiento de voz queda en una variable de nombre “res” que puede ser utilizada en cualquier parte de ese flujo, referenciándola como se referencia cualquier variable como si fuese configurada con un set (${res})
El servicio de reconocimiento de voz necesita ser adquirido como servicio de Google asociado a un token.
Ese token es el que se tiene que utilizar en la configuración de la actividad.
La configuración del servicio se tiene que modificar desde el archivo que esta en la siguiente ruta del servidor: /var/lib/asterisk/agi-bin/speech-recog.agi
La variable a la que se le tiene que configurar el token es: my $key = "";