Lección 1, Tema 8
En Progreso

Aprendizaje profundo (2)

Progreso Lección
0% Completado

En el tema anterior vimos cómo se puede aplicar un red neuronal para predecir la demanda de un producto, pero ¿cómo es capaz una red neuronal de “mirar” una imagen y averiguar qué hay en ella? ¿O escuchar un clip de audio y entender lo que se dice en él?

Vamos a ver un ejemplo más complejo: Aplicación de una red neuronal para reconocimiento facial. Imagina que quieres construir un sistema para reconocer a personas a partir de imágenes, ¿cómo puede un software mirar una imagen y averiguar la identidad de la persona en ella?

¿será capaz la IA de reconocer a personas en fotos?

Acerquémonos a un cuadrado pequeño como el señalado para entender mejor como ve un ordenador las imágenes. Donde tú y yo vemos un ojo humano un ordenador en cambio ve esto, una matriz de valores de brillo de los píxeles que indica, para cada uno de los píxeles de la imagen, el brillo que tiene. Si fuera una imagen en blanco y negro o en escala de grises, a cada píxel le correspondería un número único que indicaría su brillo. Si se trata de una imagen a color, cada píxel tendrá tres números que corresponden al brillo de los elementos rojo, verde y azul de ese píxel. Por tanto, el trabajo de las redes neuronales consiste en tomar como entrada un gran cantidad de números como estos e indicar el nombre de la persona en la foto.

En el tema anterior, has visto cómo una red neuronal puede tomar como entrada cuatro números que corresponden al precio, coste de envío, presupuesto de marketing, y el tejido de una camiseta, y dar como salida la demanda. En este ejemplo, la red neuronal solo tiene que tomar como entrada muchos más números que corresponden a todos los valores de brillo de los píxeles de esta imagen. Si la resolución de esta imagen es de 1000 píxeles por 1000 píxeles, es de un millón de píxeles. Si se tratara de una imagen en blanco y negro o en escala de grises, esta red neuronal tomaría como entrada un millón de números que corresponden al brillo del millón de píxeles de esta imagen. O si fuera una imagen en color se necesitarían como entrada tres millones de números correspondientes a los valores rojo, verde y azul de cada uno de este millón de píxeles de esta imagen. Al igual que antes, muchas de estas neuronas artificiales computan los diferentes valores, y no es tu responsabilidad diseñar lo que estas neuronas deberían calcular. La red neuronal lo resolverá por sí misma. Normalmente, cuando le das una imagen, las neuronas de las primeras partes de la red neural aprenden a detectar bordes en las imágenes y luego, más tarde, partes de objetos. Así aprenden a detectar ojos, narices, la forma de las mejillas y de las bocas. Luego las siguientes neuronas, más a la derecha, aprenden a detectar diferentes formas de rostros y finalmente reúnen todo y dan como resultado la identidad de la persona de la imagen.

A partir de la foto, el resultado final de esta compleja red neuronal es la identidad de la persona. Esta es la base del reconocimiento facial.

Una vez más, parte de la magia de las redes neuronales es que no necesitas preocuparte por lo que ocurre en el proceso. Todo lo que necesitas hacer es proporcionar muchos datos de imágenes como esta, A, y la identidad correcta, B, y el algoritmo de aprendizaje calcula por sí mismo lo que cada neurona debe computar durante el proceso.

¡Enhorabuena! Ya has terminado de leer la documentación. Repásala si es necesario, y después realiza el cuestionario del apartado siguiente. Si sacas más de un 80% te daremos tu primer diploma.

Curso Discussion