Una IA logra que las fotos cobren vida como en ‘Harry Potter’

El método no solo ofrece nuevas formas para que las personas disfruten e interactúen con las fotografías y la realidad aumentada, también sugiere un camino para reconstruir un avatar virtual a partir de una sola imagen.

Chung-Yi Weng | Youtube

En las novelas de Harry Potter de J. K. Rowling, las fotografías mágicas son iguales que las normales, a excepción de que las personas que aparecen en ellas están animadas: saludan, sonríen e incluso desaparecen durante un rato para atender otros asuntos.

Las fotos mágicas son producto de la extraordinaria imaginación de Rowling. Pero algo parecido pronto estará disponible para los muggles comunes gracias al trabajo de un equipo la Universidad de Washington en Seattle (EE.UU.) liderados por Chung-Yi Weng. Los investigadores han creado un software llamado Photo Wake-Up (Foto Despierta) que produce la animación del personaje central de una fotografía y deja fija el resto de la imagen.

El proceso más fácil de contar que de hacer debido a un importante problema informático no resuelto. Se trata de la estimación de la postura del cuerpo. Con la imagen bidimensional de una persona, la pregunta que la visión artificial debe responder es: ¿qué postura tridimensional está adoptando esa persona?

Wake-Up: 3D Character Animation from a Single Photo

Averiguarlo es difícil porque los cuerpos pueden estar parcialmente ocluidos, a menudo por otras partes del cuerpo, como cuando alguien está de brazos cruzados. Por eso es difícil para una máquina determinar la estructura tridimensional a partir de una imagen en 2D.

Un gran número de equipos de investigadores informáticos ha intentado resolver este problema. En su trabajo, el equipo de Weng ha utilizado un programa llamado SMPL, desarrollado por un equipo de Microsoft y el Instituto Max Planck para Sistemas Inteligentes en Alemania.

El proceso habitual comienza con un recorte 2D de un cuerpo humano sobre el que se superpone un esqueleto 3D. El esqueleto puede animarse para crear la sensación de movimiento. Eso resuelve el problema de la estimación de la postura, aunque solo es útil en un conjunto limitado de circunstancias.

El código necesita un recorte frontal de la cabeza a los pies de un cuerpo. Puede manejar algunos tipos de oclusión, como un brazo situado delante del cuerpo, pero no puede manejar oclusiones más complejas, como alguien sentado con las piernas cruzadas. Aun así, mapear el recorte de una fotografía en un esqueleto 3D no produce animaciones realistas.

Ahí es donde han trabajado Weng y sus compañeros. Su principal logro ha consistido en desarrollar una manera de deformar el recorte en 2D para crear un modelo realista en 3D del cuerpo. La investigación detalla: “Nuestra contribución técnica clave es un método para construir un modelo en 3D de animación que coincida con la silueta en una foto”.

En el pasado, los informáticos intentaron resolver este problema deformando una malla tridimensional con forma de cuerpo para reflejar el recorte en 2D. Pero eso no siempre funciona bien, por lo que Weng y su equipo probaron un enfoque diferente.

Su idea consiste en mapear la malla con forma de cuerpo en el espacio 2D y luego alinearla con el recorte 2D con un algoritmo de deformación. Esto identifica las partes específicas del cuerpo (cabeza, brazo derecho, pierna derecha, brazo izquierdo, pierna izquierda y torso) y las distorsiona individualmente para que coincidan con el recorte.

Después de realizar la alineación en 2D, la transforman de nuevo en 3D. “Este enfoque de deformación en 2D funciona bien para manejar las siluetas complejas”, dicen. El equipo presta especial atención a la cabeza, ya que los humanos tendemos a fijar nuestra atención en ella. “La precisión en la postura de la cabeza es importante para una buena animación”, afirman. Por eso, su algoritmo también identifica características como la dirección de la mirada y el ángulo de la cabeza, y luego las usa para obtener un ángulo preciso para la postura de la cabeza de la malla del cuerpo.

Estas técnicas automatizadas son buenas, pero no son perfectas. Así que el equipo también ha desarrollado una interfaz de usuario para que cualquiera pueda cambiar la orientación del esqueleto en relación con el cuerpo. Eso permite a los usuarios corregir cualquier error y afinar la animación.

El resultado final es una foto animada impresionante. El algoritmo aísla un cuerpo humano en la fotografía, lo elimina de la imagen y llena el espacio con un algoritmo de relleno de parches. Luego crea la animación de este cuerpo en tres dimensiones para que salga de la foto, para correr, saltar o saludar con la mano, como las fotos mágicas imaginadas por Rowling. El algoritmo incluso funciona en realidad aumentada.

La investigación continúa: “Nuestro método funciona con una gran variedad de fotos de todo el cuerpo, normalmente frontales, desde las deportivas hasta las artísticas y carteles”. El equipo ha publicado un vídeo para explicar su método y sus resultados. ¡Vale la pena verlo!

Se trata de un trabajo interesante con potencial para entretener e informar. O como afirman Weng y sus colegas: “Creemos que nuestro método no solo ofrece nuevas formas para que las personas disfruten e interactúen con las fotos, también sugiere un camino para reconstruir un avatar virtual a partir de una sola imagen, al mismo tiempo que ofrece información sobre el estado del arte del modelado humano a partir de una sola foto”.

Seguro que hasta Rowling estaría impresionada.

MIT