Esta Inteligencia Artificial sabe qué gestos estás haciendo solo con oír tu voz

Uno de los problemas de hablar por teléfono es que no podemos ver todo el lenguaje no verbal de nuestro interlocutor. Sus gestos con las manos, cómo abre los ojos, o cómo los amusga, o cómo levanta una ceja con escepcitismo, o si sonríe o no.

Los humanos podemos deducirlo, por supuesto. Sin embargo, esta inteligencia artificial es capaz de hacerlo mejor, y lo han probado con varias personas, incluyendo famosos de la televisión estadounidense.

Lenguaje no verbal

Un grupo de investigadores recolectó 144 horas de video de 10 personas que hablaban, incluida una monja, una profesora de química y cinco presentadores de programas de televisión (Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart y Seth Meyers).

Utilizaron un algoritmo existente para producir figuras esqueléticas que representan las posiciones de los brazos y las manos de los oradores. Luego entrenaron su propio algoritmo con los datos, por lo que predeciría los gestos basados en el nuevo audio de los altavoces.

Los gestos generados fueron más cercanos a la realidad que los que se seleccionaron al azar del mismo orador o las predicciones de un tipo diferente de algoritmo diseñado originalmente para anticipar los movimientos de las manos de pianistas y violinistas. Los gestos de los oradores también fueron únicos.

Entrenar a una persona y predecir los gestos de otra persona no funcionó tan bien. Alimentar los gestos pronosticados en un algoritmo de generación de imágenes existente creó videos semirrealistas, como se ve en el video.

El siguiente paso del equipo es predecir gestos basados no solo en el audio, sino también en las transcripciones. Las aplicaciones potenciales incluyen la creación de personajes animados, robots que se mueven naturalmente o firmas de movimiento de personas para identificar videos falsos.

Algo necesario en esta carrera armamentística de la creación de vídeos falsos (deep fakes): los avances y la democratización de las herramientas de inteligencia artificial ya hace posible que cualquiera persona con cierto conocimiento en programación y edición de video pueda modificar las imágenes con tal realismo que sea casi imposible detectar para el ojo humano, lo que permite hacer un montaje casi perfecto de una persona diciendo cosas que no dijo, intercambiar imágenes en escenas pornográficas, generar noticias falsas y hasta mensajes políticos inexistentes.

Para poder lograr estos videos adulterados, el creador alimenta los datos en un programa —FakeApp, el más conocido— que utiliza una forma de inteligencia artificial (AI) conocida como “aprendizaje profundo” para combinar la cara en las imágenes de origen con el video elegido.** Un ejemplo es el siguiente vídeo de Obama**:

Es posible que muy pronto veamos programas más inteligentes capaces de engañarnos mejor.

Xataka