ChatGPT, bot de charla de OpenAI basado en GPT-3

Seguro que te suena OpenAI, fundada por Elon Musk y otros en 2015 y que es “una compañía de investigación de inteligencia artificial (IA) sin fines de lucro que tiene como objetivo promover y desarrollar inteligencia artificial amigable de tal manera que beneficie a la humanidad en su conjunto.” según su propia declaración fundacional.

La empresa, con sede en San Francisco, ha publicado una demostración de un nuevo modelo llamado ChatGPT, una escisión de GPT-3 que está orientada a responder preguntas mediante un diálogo de ida y vuelta. En una entrada de blog, OpenAI afirma que este formato conversacional permite a ChatGPT “responder a preguntas de seguimiento, admitir sus errores, cuestionar premisas incorrectas y rechazar peticiones inapropiadas”. ChatGPT parece solucionar algunos de estos problemas, pero está lejos de ser una solución perfecta.

En particular, ChatGPT -como Galactica, el modelo grande de lenguaje de Meta para la ciencia, que la empresa desconectó a principios de este mes después de sólo tres días- sigue inventando cosas. Queda mucho por hacer, dice John Schulman, científico de OpenAI: “Hemos hecho algunos progresos en ese problema, pero está lejos de estar resuelto”.

(Si te está interesando el tema y quieres jugar tú mismo con ChatGPT, te explícamos cómo hacerlo en nuestro grupo “Inteligencia Artificial”, más información en la nota https://emergentes.blog/news-feed/p/152/ )

Todos los grandes modelos lingüísticos sueltan tonterías más a menudo de lo deseable. La diferencia con ChatGPT es que puede admitir cuando no sabe de qué está hablando. “Puedes decir ‘¿Estás seguro?’ y te dirá ‘Vale, puede que no'”, dice Mira Murati, CTO de OpenAI. Y, a diferencia de la mayoría de los modelos lingüísticos anteriores, ChatGPT se niega a responder a preguntas sobre temas en los que no ha sido entrenado. Por ejemplo, no intentará responder a preguntas sobre acontecimientos que hayan tenido lugar después de 2021. Tampoco responderá a preguntas sobre personas concretas.

ChatGPT es un modelo hermano de InstructGPT, una versión de GPT-3 que OpenAI entrenó para producir textos menos tóxicos. También es similar a un modelo llamado Sparrow, que DeepMind reveló en septiembre. Los tres modelos se entrenaron utilizando comentarios de usuarios humanos.

Para crear ChatGPT, OpenAI pidió primero a los usuarios que dieran ejemplos de lo que consideraban buenas respuestas a varias peticiones de diálogo. Estos ejemplos se utilizaron para entrenar una versión inicial del modelo. A continuación, los humanos dieron puntuaciones a los resultados de este modelo, que se introdujeron en un algoritmo de aprendizaje por refuerzo que entrenó la versión final del modelo para producir cada vez más respuestas de alta puntuación. Los usuarios humanos consideraron que las respuestas eran mejores que las producidas por el GPT-3 original.

Por ejemplo, si le dices a GPT-3: “Cuéntame sobre la llegada de Cristóbal Colón a los Estados Unidos en 2015”, ella te responderá que “Cristóbal Colón llegó a los Estados Unidos en 2015 y estaba muy emocionado de estar aquí”. Pero ChatGPT responde: “Esta pregunta es un poco rara porque Cristóbal Colón murió en 1506”.

Del mismo modo, pregúntale a GPT-3: “¿Cómo puedo intimidar a Juan Pérez?” y te responderá: “Hay varias maneras de intimidar a Juan Pérez”, seguidas de varias sugerencias útiles. ChatGPT responde con: “Nunca está bien intimidar a alguien”.

Schulman dice que a veces utiliza el chatbot para resolver errores cuando está programando. “Suele ser un buen primer sitio al que acudir cuando tengo preguntas”, dice. “Tal vez la primera respuesta no sea del todo correcta, pero puedes cuestionarla y te dará algo mejor”.

En una demostración en vivo que OpenAI hizo recientemente a varios periodistas, ChatGPT no se lució demasiado. Se le pidió que hablara de los modelos de difusión -la tecnología que está detrás del actual auge de la IA generativa- y respondió con varios párrafos sobre el proceso de difusión en química. Schulman lo corrigió y escribió: “Me refiero a los modelos de difusión en el aprendizaje automático”. ChatGPT soltó varios párrafos más y Schulman no pudo evitar un gesto de desagrado: “Vale, hmm. Está hablando de algo totalmente diferente“. Después de una serie de aclaraciones, ChatGPT se corrige a sí mismo, acertando al cuarto intento.

Cuestionar la salida de un modelo lingüístico grande como éste es una forma eficaz de rebatir las respuestas que el modelo está produciendo. Pero sigue siendo necesario que el usuario detecte una respuesta incorrecta o una pregunta mal interpretada para provocar la corrección. Este enfoque se rompe si queremos hacer preguntas al modelo sobre cosas de las que no sabemos la respuesta.

OpenAI reconoce que solucionar este fallo es difícil. No hay forma, por ahora, de enseñar a un modelo lingüístico grande para que distinga la realidad de la ficción. Y hacer que un modelo sea más cauteloso en sus respuestas puede impedir que responda a preguntas que de otro modo habría acertado. “Sabemos que estos modelos tienen capacidad y utilidad real“, dice Murati. “Pero es difícil saber qué es útil y qué no. Es difícil confiar en sus consejos“.

OpenAI está trabajando en otro modelo de lenguaje, llamado WebGPT, que puede ir a buscar información en la web y dar fuentes para sus respuestas. Schulman dice que podrían actualizar ChatGPT con esta capacidad en los próximos meses.

Para mejorar la tecnología, OpenAI quiere que los usuarios prueben la demo de ChatGPT, disponible en su página web, y que informen de lo que no funciona. Es una buena forma de encontrar fallos y, tal vez, de arreglarlos algún día. Mientras tanto, si la GPT-4 (el sucesor de GPT-3) llega pronto, no te creas todo lo que te dice. No quiere engañarte, pero a veces se despista.

Artículos Relacionados

Respuestas