En la actualidad, los grandes negocios se construyen alrededor de excelentes relaciones con los consumidores, por lo que cada vez son más las empresas que centran sus esfuerzos en ubicar al cliente en el centro de estrategias marcadas por la innovación y el uso de tecnologías disruptivas como la Inteligencia Artificial (IA) conversacional.
Y es que aplicar a los sistemas de atención al cliente soluciones conversacionales inteligentes es una acción que permite ahorrar costos y optimizar la comunicación con los usuarios. El potencial de crecimiento de las tecnologías de IA es enorme y en los próximos años se atestiguarán novedosas capacidades y ventajas.
En este contexto, la empresa NVIDIA presentó nuevas investigaciones y herramientas que permiten capturar cualidades naturales del habla a través del sistema de Inteligencia Artificial (IA) con su propia voz.
Para mejorar su síntesis de voz de IA, el equipo de investigación de NVIDIA desarrolló un modelo llamado RAD-TTS, ganadora en una competencia de la convención de transmisión de NAB para desarrollar el avatar más realista.
Bryan Catanzaro, Vicepresidente de Investigación de Aprendizaje Profundo Aplicado a NVIDIA explicó que “el sistema permite que una persona entrene un modelo de conversión de texto a voz con su propia voz, incluido el ritmo, la tonalidad y el timbre, entre otras cosas”.
Los desarrolladores y creadores de IA conversacional también pueden crear modelos de vanguardia para la síntesis de voz expresiva que pueden utilizar personajes, asistentes virtuales y avatares personalizados.
“Si has interactuado en alguna ocasión con un chatbot, dispositivos como Alexa y Google home o asistentes como Siri, puedes hacerte una idea de a qué nos referimos”.
Catanzaro explicó que la IA ha transformado el habla sintetizada del tono monótono de las llamadas automáticas y los primeros sistemas de navegación GPS al tono profesional y fresco de los asistentes virtuales en los smartphones y los altavoces.
Para ayudar a los desarrolladores y creadores, los investigadores de NVIDIA están creando modelos y herramientas para una síntesis de voz controlable y de alta calidad que captura la riqueza del habla humana, sin artefactos de audio.
Estos modelos, dijo, pueden ayudar a las líneas de servicio al cliente automatizadas por voz para bancos y minoristas, dar vida a personajes de videogamers o libros y proporcionar síntesis de voz en tiempo real para avatares digitales.
Asimismo subrayó que las capacidades del modelo de IA van más allá del trabajo de voz en off: la conversión de texto a voz se puede utilizar en juegos, para ayudar a personas con discapacidades vocales o incluso para ayudar a los usuarios a traducir entre idiomas con su propia voz.
Incluso, añadió, permite recrear las actuaciones de cantantes icónicos, haciendo coincidir no solo la melodía de una canción, sino también la expresión emocional detrás de las voces; el equipo creativo interno de NVIDIA puede utilizar también la tecnología para producir una narración emotiva para una serie de videos sobre el poder de la IA.
La síntesis de voz expresiva es solo un elemento del trabajo del Área de Investigación de NVIDIA en IA conversacional, un campo que también abarca el procesamiento del lenguaje natural, el reconocimiento automático de voz, la detección de palabras clave, la mejora de audio y más.
Informó que optimizadas para ejecutarse de manera eficiente en las GPUs NVIDIA, las herramientas de IA conversacionales de última generación se lanzan en el kit de herramientas de código abierto NVIDIA NeMo, disponible en NGC.
Puntualizó que la brecha se está cerrando rápidamente: los investigadores de NVIDIA están construyendo modelos y herramientas para la síntesis de voz controlable y de alta calidad que capturan la riqueza del habla humana, sin artefactos de audio. Sus últimos proyectos ahora se exhiben en sesiones en la conferencia Interspeech 2021, que se extenderá hasta el 3 de septiembre.
C$T-EVP