Astronautas a caballo y otros ejemplos que cuestionan la definición de la IA

La última herramienta de IA de OpenAI genera imágenes de una manera muy similar a como lo hacen los humanos, pero plantea dudas sobre lo que entendemos por inteligencia.

Cuando OpenAI a principios de 2021 reveló su red neuronal de creación de imágenes DALL-E, fue sorprendente la capacidad del programa, similar a la humana, para combinar conceptos diferentes de nuevas maneras. La serie de imágenes que DALL-E generó, según lo que se le pedía, fue surrealista y parecía de dibujos animados, pero mostró que la inteligencia artificial (IA) había aprendido algunas lecciones clave sobre cómo funcionaba el mundo. Los sillones de aguacate de DALL-E tenían las características básicas tanto de los aguacates como de las sillas; sus rábanos con tutús paseando a perros llevaban los tutús alrededor de la cintura y sostenían en sus manos las correas de los perros.

El laboratorio con sede en San Francisco (EE UU) acaba de presentar al sucesor de DALL-E, DALL-E 2 que genera imágenes mucho mejores, es más fácil de usar y, a diferencia de la versión original, se lanzará públicamente algún día. DALL-E 2 podría incluso cambiar las definiciones actuales de la inteligencia artificial, obligándonos a examinar ese concepto y decidir qué significa realmente.

“El salto de DALL-E a DALL-E 2 recuerda el de GPT-2 a GPT-3”, señala el CEO del Instituto Allen de Inteligencia Artificial (AI2) de Seattle (EE UU), Oren Etzioni. GPT-3 también fue desarrollado por OpenAI.

“Osos de peluche como científicos locos de steampunk mezclando productos químicos chispeantes” / “Una fotografía macro de película de 35 mm de una gran familia de ratones con sombreros junto a la chimenea”

Los modelos de generación de imágenes como DALL-E han avanzado mucho en pocos años. En 2020, AI2 mostró una red neuronal que podía generar imágenes a partir de indicaciones como “tres personas juegan videojuegos en un sofá”. Los resultados estaban distorsionados y borrosos, pero casi reconocibles. El año pasado, el gigante tecnológico chino Baidu mejoró la calidad de imagen del DALL-E original con un modelo denominado ERNIE-ViLG.

DALL-E 2 lleva esa técnica aún más lejos. Sus creaciones resultan asombrosas: se le puede pedir que genere imágenes de astronautas a caballo, osos de peluche disfrazados de científicos o nutrias marinas al estilo de Vermeer, y lo hace de manera muy realista como si de una foto se tratase. Los ejemplos que OpenAI ha publicado (ver más abajo), así como los que vi la semana pasada en una demostración de la empresa, han sido cuidadosamente elegidos. Aun así, la calidad en la mayoría de los casos es notable.

“Una forma en la que se puede pensar en esta red neuronal es la belleza trascendente como servicio”, explica el cofundador y científico jefe de OpenAI, Ilya Sutskever. “De vez en cuando genera algo que me deja simplemente boquiabierto”.

La mejora en el rendimiento de DALL-E 2 se debe a un completo rediseño. La versión original era más o menos una extensión de GPT-3. En muchos sentidos, GPT-3 es como un autocompletado supercargado: se le dan un par de palabras o frases y el sistema continúa por sí solo, prediciendo centenares de palabras que continúan la secuencia. DALL-E funcionaba de la misma manera, pero en lugar de palabras usaba píxeles. Al recibir una indicación de texto, “completaba” ese texto prediciendo la cadena de píxeles que suponía que era más probable que apareciera a continuación, generando una imagen.

DALL-E 2 no se basa en GPT-3. Su funcionamiento interno se da en dos fases. En primer lugar, utiliza el modelo de lenguaje CLIP de OpenAI, que puede emparejar descripciones escritas con imágenes, para traducir la indicación de texto a una forma intermedia que identifica características clave que debe tener la imagen para coincidir con ese mensaje (según CLIP). Después, DALL-E 2 ejecuta un tipo de red neuronal conocida como modelo de difusión para generar una imagen de acuerdo con CLIP.

Los modelos de difusión se entrenan con imágenes que han sido completamente distorsionadas con píxeles aleatorios. Mediante este proceso, aprenden a convertir estas imágenes de nuevo a su forma original. En DALL-E 2, no hay imágenes existentes. Así que el modelo de difusión toma píxeles aleatorios y, guiado por CLIP, los convierte en una imagen completamente nueva, creada desde cero, que coincide con la indicación de texto.

El modelo de difusión permite que DALL-E 2 produzca imágenes de mayor resolución de manera más rápida que DALL-E. “Eso lo vuelve mucho más práctico y fácil de usar”, explica el experto de OpenAI Aditya Ramesh.

En la demostración, Ramesh y sus colegas me mostraron imágenes de un erizo usando una calculadora, un perro y un panda jugando al ajedrez y un gato disfrazado de Napoleón sosteniendo un trozo de queso. Señalé el extraño elenco de sujetos. “Es fácil pasar todo un día de trabajo imaginando indicaciones”, respondió Ramesh.

“Una nutria marina al estilo de La joven de la perla de Johannes Vermeer” / “Un pájaro ibis en la naturaleza, al estilo de John Audubon”

DALL-E 2 todavía se puede equivocar. Por ejemplo, puede tener problemas con una indicación que le pida que combine dos o más objetos con dos o más atributos, como “Un cubo rojo encima de un cubo azul”. OpenAI cree que esto se debe a que CLIP no siempre relaciona correctamente los atributos a los objetos.

Además de usar indicaciones de texto, DALL-E 2 puede generar variaciones de imágenes existentes. Para demostrarlo, Ramesh introduce una foto de arte urbano que tomó cerca de su apartamento, la IA inmediatamente comienza a generar versiones alternativas de la escena con diferentes obras de arte en el muro. Cada una de estas nuevas imágenes se puede utilizar para iniciar su propia secuencia de variaciones. “Este circuito de retroalimentación podría ser realmente útil para diseñadores“, opina Ramesh.

Una de las primeras usuarias, la artista Holly Herndon, afirma que utiliza DALL-E 2 para crear composiciones del tamaño de una pared. “Puedo unir obras de arte gigantes pieza por pieza, como un tapiz de patchwork o un viaje narrativo”, señala la artista. “Se crea la sensación de trabajar en un nuevo medio”.

Cuidado con los usuarios

DALL-E 2 es un producto más refinado que la versión anterior, aunque ese no era el objetivo, tal y como señala Ramesh. Pero OpenAI planea lanzar DALL-E 2 al público después del lanzamiento inicial a un pequeño grupo de usuarios fiables, como hizo con GPT-3. (Se puede registrar para acceder aquí).

GPT-3 puede producir texto tóxico. Pero OpenAI asegura que ha tenido en cuenta los comentarios que recibió de los usuarios de GPT-3 para entrenar una versión más segura, denominada InstructGPT. La empresa espera seguir un camino similar con DALL-E 2 que también será modificado según el feedback de los usuarios. OpenAI alentará a usuarios iniciales a adentrarse en la IA, engañándola para que genere imágenes ofensivas o dañinas. Después de resolver estos problemas, OpenAI volverá DALL-E 2 disponible para un grupo más amplio de personas.

OpenAI también ha lanzado unas normas para el uso de DALL-E, que prohíbe pedirle a la IA que genere imágenes ofensivas (nada de violencia ni de pornografía) y políticas. Para evitar deepfakes, no se podrá solicitar a DALL-E que genere imágenes de personas reales.

“Un plato de sopa que parece un monstruo, tejido con lana” / “Un perro shibu inu con boina y cuello alto negro”

Además de la política de usuarios, OpenAI ha eliminado de los datos de entramiento de DALL-E 2 ciertos tipos de imágenes como las que muestran violencia gráfica. OpenAI también asegura que habrá moderadores humanos que revisen cada imagen generada en su plataforma.

“Nuestro principal objetivo es simplemente conseguir mucho feedback sobre el sistema antes de empezar a compartirlo de manera más amplia”, resalta Prafulla Dhariwal, investigador de OpenAI. “Espero que algún día esté disponible, para que los desarrolladores puedan crear apps basándose en él”.

La inteligencia creativa

Las IAs con múltiples habilidades que pueden ver el mundo y trabajar con conceptos a través de diferentes modalidades -como el lenguaje y la visión- son un paso hacia una inteligencia artificial de propósito más general. DALL-E 2 es uno de los mejores ejemplos hasta el momento.

A pesar de que Etzioni está impresionado con las imágenes que genera DALL-E 2, se muestra cauto sobre de lo que esto significa para el progreso global de la IA. “Este tipo de mejoras no nos acerca más a AGI (inteligencia artificial general, por sus siglas en inglés)”, señala. “Ya sabemos que la IA es sorprendentemente capaz de resolver tareas limitadas utilizando el aprendizaje profundo. Pero siguen siendo los seres humanos quienes formulan estas tareas y dan las órdenes”.

Para el investigador de IA en Georgia Tech en Atlanta (EE UU) Mark Riedl, la creatividad es una buena manera de medir la inteligencia. A diferencia de la prueba de Turing, que requiere que una máquina engañe a una persona a través de una conversación, la prueba Lovelace 2.0 de Riedl valora la inteligencia de una máquina de acuerdo con lo bien que responde a las solicitudes para crear algo, como “Una imagen de un pingüino en un traje espacial en Marte paseando a un perro robot al lado de Papá Noel“.

DALL-E consigue buenos resultados en esta prueba. Pero la inteligencia tiene una escala variable. A medida que construimos mejores máquinas, nuestras pruebas de inteligencia se deben ir adaptando. Muchos chatbots actuales son muy buenos a la hora de imitar la conversación humana, pasando la prueba de Turing en un sentido estricto. Aún asi, siguen sin tener sentido común.

No obstante, el significado de los conceptos de “crear” y “comprender” también cambian, opina Riedl. “Estos términos están mal definidos y sujetos a debate”. Una abeja entiende el significado del amarillo porque actúa sobre esa información, por ejemplo. “Si definimos el ‘comprender’ en base a la comprensión humana, los sistemas de IA están muy lejos“, indica Riedl.

“Pero yo también diría que estos sistemas de generación de arte tienen una comprensión básica que coincide con la comprensión humana”, resalta. “Pueden poner un tutú en un rábano en el mismo lugar en el que lo pondría una persona”.

Al igual que la abeja, DALL-E 2 actúa sobre la información, generando imágenes que cumplen con las expectativas humanas. Las IA como DALL-E nos llevan a pensar en estas cuestiones y en lo que queremos decir con estos términos.

OpenAI tiene claro su camino. “Nuestro objetivo es crear inteligencia artificial general”, concluye Dhariwal. “Construir modelos como DALL-E 2 que conectan la visión y el lenguaje es un paso crucial en nuestro fin más amplio de enseñar a las máquinas a percibir el mundo de la misma manera que lo hacen los seres humanos y, finalmente, desarrollar AGI”.

MIT