Lección 3 of 5
En Progreso

Abrimos el capó de DALL-E-2 para ver lo que hay dentro

DALL-E 2 ha marcado un nuevo hito en la calidad de los generadores de imágenes por IA. Es capaz de entender descripciones de texto mucho mejor que cualquier otra cosa anterior. Su comprensión superior del lenguaje natural se traduce en un mayor dominio de estilos, temas, ángulos, fondos, localizaciones y conceptos. El resultado son imágenes de mayor calidad y una “nueva” forma de crear arte que resulta impresionante.

Para entender cómo funciona un generador de imágenes AI, es necesario familiarizarse un poco con los siguientes conceptos:

  • CLIP: acrónimo de Contrastive Language-Image Pre-training (preentrenamiento contrastivo de lenguaje e imágenes). Quizá sea el componente más importante de la arquitectura de DALL-E 2. El método se basa en la idea de que se puede utilizar el lenguaje natural para enseñar a los ordenadores cómo se relacionan distintas imágenes. CLIP consta de dos redes neuronales: una codificadora de texto y otra de imágenes. Ambas se entrenan con enorrrrrrrrmes (con muchas erres) y diversas colecciones de pares imagen-texto. El modelo analiza estos pares de imagen-descripción para crear representaciones vectoriales denominadas incrustaciones texto-imagen. En otras palabras, CLIP sirve de puente entre el texto (entrada) y la imagen (salida).
  • Modelo previo: Toma una instancia descripción-de-imagen/CLIP y se basa en ella para generar incrustaciones de imagen CLIP.
  • Decodificador Modelo de difusión (unCLIP): La inversa del modelo CLIP original genera imágenes utilizando incrustaciones de imágenes CLIP.

DALL-E 2 crea imágenes combinando el modelo previo y el unCLIP. La siguiente imagen describe a grandes rasgos el proceso subyacente.

Como tal vez pueda deducirse de la imagen, el modelo unCLIP crea una representación “mental” de una imagen. A partir de ahí, se crea una imagen única y original basada en la representación mental genérica.

La representación mental conserva las características y rasgos esenciales que son semánticamente coherentes. Por ejemplo: animales, objetos, color, estilo y fondo. Sin embargo, la imagen de salida es novedosa porque varía con cierta “aleatoriedad”.

Ten en cuenta que esto es sólo un resumen rápido de cómo funciona DALL-E 2. Los detalles técnicos y matemáticos de la implementación son más complicados (y están fuera del alcance de este curso, y del autor del curso).

Dicho esto, OpenAI publicó un artículo: “Hierarchical Text-Conditional Image Generation with CLIP Latents“, a principios del 2022. Si estás interesado en las especificaciones técnicas de DALL-E 2, y tienes ganas de que tu cerebro queme glucosa a mansalva ese es un buen lugar para comenzar tu investigación.

Patrocinado por

Curso Discussion