DALL-E, la I.A. que dibuja cualquier cosa que se le ordene

En los laboratorios de nuestra ya familiar OpenAI, los investigadores están desarrollando una tecnología que permite crear imágenes digitales simplemente describiendo lo que se quiere ver.

Lo llaman DALL-E en un guiño a “WALL-E”, la película de animación de 2008, y a Salvador Dalí, el pintor surrealista español (por una vez España aparece mencionada en un proyecto tecnológico puntero).

OpenAI, que por cierto hace tiempo recibió mil millones de dólares de financiación de Microsoft, ha realizado varias demostraciones del uso de su sistema. En una de ellas, Alex Nichol, uno de los investigadores que están detrás del sistema, pidió “una tetera con forma de aguacate”, tecleando esas palabras en una pantalla de ordenador casi vacía. A la orden, el sistema creó 10 imágenes distintas de una tetera de aguacate verde oscuro, algunas con hueso y otras sin él. “A DALL-E se le dan bien los aguacates”, dijo el Sr. Nichol. A mí también, sé como germinar sus semillas (¡y vivo en Valladolid!), si alguien tiene interés que me pregunte.

NO son fotos. Son imágenes digitales generadas por la I.A. DALL-E

Cuando escribió “gatos jugando al ajedrez”, puso dos gatitos mullidos a cada lado de un tablero de juego a cuadros, con 32 piezas de ajedrez alineadas entre ellos. Cuando tecleó “un oso de peluche tocando la trompeta bajo el agua”, una imagen mostraba pequeñas burbujas de aire que salían del extremo de la trompeta del oso hacia la superficie del agua. DALL-E también puede editar fotos. Cuando Nichol borró la trompeta del oso de peluche y pidió una guitarra en su lugar, apareció una guitarra entre los brazos del peludo.

Un equipo de siete investigadores dedicó dos años a desarrollar la tecnología, que OpenAI planea ofrecer como herramienta para personas como los artistas gráficos, proporcionando un medio rapidísimo para bocetar nuevas ideas mientras crean y editan imágenes digitales. Los programadores informáticos ya utilizan Copilot, una herramienta basada en una tecnología similar de OpenAI, para generar fragmentos de código de software.

Pero para muchos expertos, DALL-E es preocupante. A medida que este tipo de tecnología siga mejorando, dicen, podría ayudar a difundir bulos y desinformaciones a través de Internet, alimentando el tipo de campañas en redes sociales que pueden haber ayudado a influir en las elecciones presidenciales de EEUU de 2016.

Vídeo de DALL-E en acción

Hace sólo 5 años, los principales laboratorios de inteligencia artificial del mundo construían sistemas que podían identificar objetos en imágenes digitales e incluso generar imágenes por sí mismos, como flores, perros, coches y caras. Unos años más tarde, construyeron sistemas que podían hacer lo mismo con el lenguaje escrito, resumiendo artículos, respondiendo a preguntas, generando tweets e incluso escribiendo entradas de blog.

Ahora, los investigadores están combinando esas tecnologías para crear nuevas formas de inteligencia artificial. DALL-E es un avance notable porque hace malabares con el lenguaje y las imágenes y, en algunos casos, capta la relación entre ambos.

La tecnología no es perfecta. Cuando Nichol pidió a DALL-E que “pusiera la Torre Eiffel en la luna”, no entendió bien la idea. Puso la luna en el cielo sobre la torre. Cuando le pidió “una sala de estar llena de arena”, produjo una escena que parecía más una obra en construcción que una sala de estar.

Pero cuando Nichol modificó un poco sus peticiones, añadiendo o quitando algunas palabras aquí o allá, le proporcionó lo que quería. Cuando pidió “un piano en un salón lleno de arena”, la imagen se parecía más a una playa en un salón.

DALL-E es lo que los investigadores de inteligencia artificial llaman una red neuronal, que es un sistema matemático que se inspira en la red de neuronas del cerebro. Se trata de la misma tecnología que reconoce las órdenes habladas en los teléfonos inteligentes e identifica la presencia de peatones cuando los coches autoconducidos circulan por las calles de la ciudad.

Una red neuronal aprende habilidades analizando grandes cantidades de datos. Por ejemplo, al identificar patrones en miles de fotos de aguacates, puede aprender a reconocer un aguacate. DALL-E busca patrones al analizar millones de imágenes digitales, así como los títulos de texto que describen lo que representa cada imagen. De este modo, aprende a reconocer los vínculos entre las imágenes y las palabras.

Cuando alguien describe una imagen para DALL-E, genera un conjunto de características clave que esta imagen podría incluir. Un rasgo puede ser la línea del borde de una trompeta. Otra podría ser la curva en la parte superior de la oreja de un oso de peluche.

A continuación, una segunda red neuronal, denominada modelo de difusión, crea la imagen y genera los píxeles necesarios para realizar estas características. La última versión de DALL-E presentada recientemente genera imágenes de alta resolución que en muchos casos parecen fotos.

Aunque DALL-E a menudo no entiende lo que alguien ha descrito y a veces estropea la imagen que produce, OpenAI sigue mejorando la tecnología. Los investigadores pueden perfeccionar las habilidades de una red neuronal alimentándola con cantidades de datos aún mayores.

También pueden construir sistemas más potentes aplicando los mismos conceptos a nuevos tipos de datos. El Instituto Allen ha creado recientemente un sistema que puede analizar tanto el audio como las imágenes y el texto. Tras analizar millones de vídeos de YouTube, incluidas las pistas de audio y los subtítulos, aprendió a identificar momentos concretos de programas de televisión o películas, como el ladrido de un perro o el cierre de una puerta.

Los expertos creen que los investigadores seguirán perfeccionando estos sistemas. En última instancia, esos sistemas podrían ayudar a las empresas a mejorar los motores de búsqueda, los asistentes digitales y otras tecnologías habituales, así como a automatizar nuevas tareas para artistas gráficos, programadores y otros profesionales.

Pero ese potencial tiene sus limitaciones. Los sistemas de inteligencia artificial pueden mostrar prejuicios contra las mujeres y las personas de otras razas, en parte porque aprenden sus habilidades a partir de enormes conjuntos de texto, imágenes y otros datos en línea que muestran prejuicios. Podrían utilizarse para generar pornografía, discursos de odio y otros materiales ofensivos. Y muchos expertos creen que la tecnología acabará facilitando tanto la creación de desinformación que la gente tendrá que ser cade vez más escéptica con casi todo lo que vea en Internet.

“Podemos falsificar textos. Podemos poner texto en la voz de alguien. Y podemos falsificar imágenes y vídeos”, dijo el Dr. Etzioni, investigador de I.A.. “Ya hay desinformación en línea, pero lo que preocupa es que esto escale la desinformación a nuevos niveles”.

OpenAI mantiene un estricto control sobre DALL-E. El sistema también incluye filtros que impiden a los usuarios generar lo que considera imágenes inapropiadas. Cuando se le pidió “un cerdo con cabeza de oveja”, se negó a producir una imagen. Según el laboratorio, la combinación de las palabras “cerdo” y “cabeza” probablemente hizo saltar los filtros antiacoso de OpenAI.

OpenAI puede controlar el comportamiento del sistema en algunos aspectos. Pero es posible que otros en todo el mundo creen pronto una tecnología similar que ponga los mismos poderes en manos de casi cualquiera. A partir de un documento de investigación que describe una versión temprana de DALL-E, Boris Dayma, un investigador independiente de Houston, ya ha construido y publicado una versión más sencilla de la tecnología.

Así que ya sabes, eso de “sólo me lo creeré si lo veo con mis propios ojos” está dejando de tener sentido.

Artículos Relacionados

Respuestas