En los últimos meses diversas compañías tecnológicas han lanzado diferentes sistemas de inteligencia artificial, y, como era de esperarse, la gran Microsoft no se iba a quedar atrás, razón por la que presentó VALL-E, IA que cuenta con la capacidad de copiar tu voz de manera casi idéntica luego de solo escucharte hablar durante tres segundos.
Recientemente, Microsoft ha desarrollado su enfoque de modelado de lenguaje para la síntesis de texto de voz (TTS, por sus siglas en inglés). En este sentido, los desarrolladores han afirmado que este inteligencia artificial llamada VALL-E puede, incluso, imitar emociones, ambiente acústico y distintos énfasis en frases.
“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, ha detallado el gigante tecnológico fundado por Bill Gates y Paul Allen.
Asimismo, Microsoft está trabajando con VALL-E a fin de que pueda funcionar con otros modelos de inteligencia artificial generativa, como GPT-3 (modelo de lenguaje autorregresivo que emplea el aprendizaje profundo para producir textos que simulen la redacción de los seres humanos).
Bajo este contexto habrá que traer a colación el hecho de que la empresa tecnológica anunció hace poco que va habilitar ChatGPT dentro de sus principales soluciones. Particularmente, el coporativo liderado por Satya Nadella señaló que llegará a Bing durante los primeros tres meses de este 2023.
Asimismo, la compañía destaca que "VALL-E podría preservar la emoción del hablante y el entomo acústico del mensaje acústico en síntesis”.
Por lo anterior, Microsoft ha afirmado que su nueva inteligencia artificial supera, de forma significativa, al sistema TTS de disparo cero de última generación, ello en lo que tiene que ver con la naturalidad del habla y similitud de la persona a la que imita la IA.
Cabe destacar que se puede dar una checada al VALL-E en el portal web de Microsoft, donde se incluyen la muestra original de la voz y las imitaciones, así como reproducciones de la misma cambiando de tono o emociones.