Clonar la voz utilizando Inteligencia Artificial. Aunque parece un concepto de ciencia ficción, es más real de lo que parece y esta tecnología ya se utilizó para robar un banco en los Emiratos Árabes Unidos (EAU) según un informe judicial obtenido por Forbes.
A principios del año pasado el gerente de un banco en los EAU recibió la llamada de una persona con voz conocida: el director de una empresa con quien ya se había comunicado antes. Este director quería notificarle que su negocio estaba a punto de realizar una adquisición, por lo que necesitaba el banco le autorizara transferencias por un valor de 35 millones de dólares.
Para coordinar los procedimientos, se había contratado a un abogado Martín Zelner y al tiempo que hablaba por teléfono podía ver en su bandeja de correo los mensajes tanto del director como de Zelner confirmando las cantidades de dinero que necesitaban para hacer los movimientos. El gerente, creyendo que todo parecía legítimo, comenzó a realizar las transferencias solicitadas.
Sin embargo, el gerente había sido parte de una elaborada estafa, donde los culpables habían utilizado "deep voice" una tecnología similar a los deepfakes con el que pudieron clonar la voz del director a partir de un discurso. Esto de acuerdo con el documento judicial que Forbes pudo obtener, en el que se menciona que los Emiratos buscaron ayuda de investigadores estadounidenses para rastrear 400,000 dólares en fondos robados que ingresaron a cuentas con sede en los Estados Unidos. De acuerdo con al investigación de los EAU, se cree que el esquema de estafa involucró a por lo menos 17 personas enviando el dinero a cuentas a lo largo del mundo.
Este sería el segundo caso conocido en que se utiliza la tecnología "deep voice" para hacer un robo, pues en 2019 estafadores intentaron hacerse pasar por el director ejecutivo de una empresa de energía con sede en Reino unido en un intento de sustraer 240,000 dólares, según el Wall Street Journal.
¿Cómo funcionan los deep voice?
Este sistema de suplantación de voz es todavía uno de los más recientes avances para crear voces falsas lo más naturales e idénticas posibles a las voces originales.
El procedimiento para generar una voz sintética puede ser un proceso tedioso y a la vez bastante simple, como señala The Verge, que solo requiere capturar un archivo de voz de la persona de aproximadamente 30 minutos mientras esta lee un guion. Después el audio se enviará a procesar y al terminar la copia estará disponible para que genere en un audio bastante realista lo deseado.
Anteriormente el proceso para generar un producto realista implicaba grabar a un actor de voz humano leyendo palabras sin coherencia, lo que eventualmente permitía generar frases y respuestas. Sin embargo ahora es posible utilizar redes neuronales que pueden hacer uso del audio sin procesar de alguna persona para obtener el mismo resultado.
Además, con la llegada de nuevos servicios especializados que se enfocan en la síntesis de voz, como Resemble AI o Respeecher, la tecnología solamente mejorará en los próximos años. Aunque los usos pueden ser bastante variados, principalmente en entornos donde se necesita generar mensajes automatizados, también tiene el riesgo de peligro potencial para fines maliciosos como el caso de en Emiratos Árabes Unidos.