Microsoft ha dado a conocer VASA-1, una inteligencia artificial capaz de crear avatares hiperrealistas a partir de una imagen y una pista de audio. Esta tecnología revolucionaria permite transformar fotografías en avatares hablantes, sincronizando el movimiento de los labios con el clip de sonido y dando vida a las imágenes. El resultado es sorprendente y tiene el potencial de cambiar la forma en que interactuamos en el mundo digital.
Cómo funciona VASA-1
VASA-1 puede capturar una variedad de expresiones faciales humanas, incluidos los movimientos naturales de la cabeza, para generar avatares hablantes creíbles. El modelo separa los rasgos faciales, la posición de la cabeza y las expresiones, permitiendo un control preciso de cada atributo y la edición independiente de cada contenido.
Este enfoque va más allá de otros modelos de inteligencia artificial que solo añaden audio a una imagen y sincronizan el movimiento de los labios. En su lugar, VASA-1 crea expresiones realistas con movimientos en un espacio tridimensional, resultando en imágenes más auténticas y menos rígidas.
«Consideramos todas las dinámicas faciales posibles, incluidos los movimientos de los labios, las expresiones (sin labios), la mirada y el parpadeo, como una única variable latente y modelamos su distribución probabilística de manera unificada», afirman los investigadores de Microsoft Research. Este enfoque holístico, junto con los patrones de movimiento de la cabeza, da lugar a la generación de comportamientos de conversación emotivos y realistas.
El entrenamiento del modelo
Para desarrollar VASA-1, Microsoft entrenó su modelo con una amplia colección de videos de personas hablando. Esto permitió al sistema entender los rostros y separar diferentes aspectos, como la identidad, expresión y movimiento de la cabeza, asignando códigos a cada uno. Estas claves se usan para crear rostros nuevos, permitiendo cambiar la expresión de alguien en un video sin afectar su identidad o modificar los movimientos de la cabeza sin alterar la sonrisa.
Los investigadores utilizaron un enfoque tridimensional para capturar más detalles sobre la cara y su movimiento en un espacio tridimensional. El modelo también acepta señales adicionales, como la dirección de la mirada, la distancia de la cabeza y las emociones. Con una misma pista de audio, VASA-1 puede generar avatares felices, enojados o nerviosos con mayor realismo.
Rendimiento y aplicaciones
VASA-1 puede producir videos de alta calidad en una resolución de 512 x 512 píxeles a 45 fotogramas por segundo. La herramienta es eficiente y puede ejecutarse en un ordenador con una GPU NVIDIA RTX 4090.
Esta inteligencia artificial no se limita solo a fotografías reales, ya que también puede aplicarse a ilustraciones o pinturas. Por ejemplo, se ha demostrado a la Mona Lisa cantando Paparazzi. Todos los ejemplos presentados se construyeron a partir de fotografías generadas con otras IAs, como DALL-E 3 y StyleGAN2.
Preocupaciones sobre desinformación
A pesar de los avances de VASA-1, existen preocupaciones sobre su potencial para ser utilizado para engañar a los usuarios. Microsoft ha declarado que está en contra de cualquier aplicación negativa y no publicará esta herramienta hasta que estén seguros de que su tecnología se utilizará de manera responsable.
«Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones. Nos dedicamos a desarrollar la IA de manera responsable, con el objetivo de promover el bienestar humano», afirmó la empresa.