Tendrían una interacción mucho más eficiente.
Intentar que los asistentes de voz sean lo más parecido a los humanos, que puedan transmitir incertidumbre, articulando palabras como cuando una persona aclara algo que generó duda, que pongan mayor énfasis en la pronunciación o que sean capaces de diferenciar dos palabras que suenan muy parecidas, son algunas de las mejoras en las que ya trabajan investigadores para poder ofrecer una experiencia más agradable al usuario.
Emular el tipo de expresividad de los humanos es la misión de la que se han encargan expertos del IBM Research de Inteligencia Artificial Text-to-Speech (TSS, por sus siglas en inglés) e IBM Watson, quienes han logrado un rendimiento de vanguardia con la introducción de arquitecturas de secuencia a secuencia neuronales profundas.
El TSS es una producción artificial del habla que funciona con un sistema denominado “speech computer” o “speech synthesizer”, que se utiliza cuando no es posible o no es conveniente leer directamente de una pantalla debido a algún impedimento, o cuando se quiere mejorar la interfaz del usuario con esta tecnología.
Esta herramienta puede sintetizar texto a audio en muchos formatos, producir voces masculinas y femeninas para varios idiomas y dialectos, y además ofrece voces neuronales concatenativas y mejoradas. El servicio acepta texto sin formato y texto anotado con lenguaje marcado de síntesis de voz (SSML) basado en XML.
El equipo de IBM propuso utilizar una variante de la arquitectura Tacotron-2 de múltiples altavoces, que consta de un codificador y un decodificador mediado por un mecanismo de atención.
El modelo base toma una representación de entrada del texto, más algunos conocimientos sobre la identidad del hablante y los codifica mediante una combinación de redes recurrentes convolucionales y bidireccionales.
Los resultados se acercan al habla natural que comenzó con la idea de alejarse de un enfoque clásico que une varios módulos desarrollados de forma independiente en un solo modelo que entrena todos los componentes de un extremo a otro.
No obstante algunos problemas, como distinguir entre dos palabras que se escuchan muy parecidas, los investigadores pensaron en considerar la pronunciación y velocidad, y durante el entrenamiento se expuso al modelo a una serie de parámetros acústicos-prosódicos extraídos de las formas de onda de entrenamiento de salida.
“Sabemos que para resaltar algunas palabras, los hablantes tienden a desviarse del resto de la oración en términos de propiedades prosódicas acústicas como la velocidad del habla y la frecuencia fundamental”.
Esto le dio al sistema la oportunidad de asociar estas entradas prosódicas con un énfasis en la salida. Durante la inferencia, cuando estas medidas no estaban disponibles, un predictor entrenado por separado las completó.
Con redes neuronales profundas (DNN-Deep Neural Networks) se predicen las características acústicas del habla y se codifica el audio que se genera: predicción de prosodia, predicción de característica acústica y codificador de voz neuronal. Las voces neuronales ayudan a generar habla nítida y clara, con una calidad de sonido muy natural y suave.
Equipar a los asistentes de voz con tales capacidades expresivas, destacó un reciente artículo de IBM Research, podría ayudar a hacerlos “más humanos”, y también proporcionar un mecanismo más eficiente para la interacción y una experiencia de usuario más agradable.
C$T-GM