VASA-1, la nueva IA de Microsoft, crea videos hiperrealistas a partir de tu foto y un clip de audio

Microsoft aclaró que no tiene intenciones de lanzar VASA-1 como un producto público. Sin embargo, el nivel de realismo de sus creaciones acentúa las preocupaciones sobre los riesgos de los deepfakes creados con IA.

VASA-1 es capaz no sólo de producir movimientos de labios sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales. / Microsoft

Microsoft tiene un nuevo sistema de inteligencia artificial (IA) que puede generar avatares hiperrealistas de personas a partir de una foto y un clip de audio. VASA-1 es un proyecto de investigación no disponible para el público en general que demuestra los alcances de la tecnología y reaviva el debate alrededor de los deepfakes.

Los investigadores de la empresa tecnológica aseguran que “VASA-1 es capaz no solo de producir movimientos de labios sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad”.

La herramienta genera videos con resolución de 512 x 512 píxeles a 45 fotogramas por segundo. Además, permite a los usuarios controlar aspectos como la secuencia de movimiento, dirección de la mirada y expresiones faciales. El sistema manipula imágenes y pistas de audio que no fueron consideradas en su proceso de entrenamiento, como obras artísticas, audios de canto y diálogos en idiomas distintos al inglés.

¿Cómo fue desarrollada VASA-1?

El nuevo modelo de IA de Microsoft está entrenado con una vasta colección de videos de personas hablando, (se desconoce el origen de la base de datos). Tiene la capacidad de analizar los rostros y entender diferentes aspectos de ellos por separado. Los investigadores asignaron un código a cada atributo para añadir o eliminar movimientos a placer.

“Consideramos como única variable latente todas las dinámicas faciales posibles, incluido el movimiento de los labios, la expresión facial, la mirada y el parpadeo, entre otras. Modelamos su distribución probabilística de manera unificada. Este modelado holístico de la dinámica facial, junto con los patrones de movimiento de la cabeza aprendidos conjuntamente, conducen a la generación de una amplia gama de comportamientos de conversación emotivos y realistas”, explican.

El equipo de desarrollo utilizó un enfoque 3D para capturar los detalles de la cara y adiestrar al algoritmo para que comprendiera los movimientos de la cabeza y cuello en un espacio tridimensional.

La nueva IA de Microsoft nace en medio de las preocupaciones por los deepfakes

Microsoft aclaró que no tiene intenciones de lanzar VASA-1 como un producto o una API. Detalló que todos los videos demostrativos incluidos en su investigación se basan en contenidos generados con DALL-E 3 y StyleGAN2.

La compañía espera que sus hallazgos faciliten la creación de avatares virtuales de IA destinados a mejorar la accesibilidad para personas con dificultades de comunicación y ofrecer apoyo terapéutico y educativo a quienes lo necesiten.

El mes pasado, más de cuatro centenas de expertos en IA, seguridad en línea, ética digital y política global firmaron una carta abierta para exigir a los gobiernos de todo el mundo tomar medidas vinculantes urgentes en contra de los deepfakes. En el documento titulado ‘Disrupting the Deepfake Supply Chain’ advirtieron que las leyes actuales no limitan adecuadamente la producción y difusión de estos productos. Acusaron que se trata de un peligro potencial en un año en el que más de la mitad de la población mundial participará en procesos democráticos.

“Para que una sociedad moderna funcione, las personas necesitan tener acceso a información creíble y auténtica. Engañar al público mediante el uso de la IA debería regularse y aplicarse mediante leyes específicas y formalizadas. Cada vez es más difícil identificar qué es real en internet. Es necesario trazar líneas para proteger nuestra capacidad de reconocer a seres humanos reales”, señala el texto.

La proliferación de vídeos falsos y engañosos producidos con sistemas de inteligencia artificial ha crecido un 550% entre 2019 y 2023, según el informe ‘State of Deepfakes 2023’, de Home Security Heroes, organización de seguridad en línea.

Wired