Estudio de la Universidad de Stanford muestra que ChatGPT es cada vez menos precisoUn grupo de investigadores de la Universidad de Stanford concluyeron que ChatGPT ha empeorado en su habilidad para resolver problemas matemáticos.
Lainteligencia artificial (IA)ha ido avanzando a pasos agigantados con el paso del tiempo; sin embargo, parece que, conChatGPT, el modelo de lenguaje autorregresivo desarrollado porOpenAI, no pasa lo mismo, de acuerdo con unestudio de la Universidad de Stanford, que fue publicado en Twitter por el investigadorMatei Zaharia.
Dicha investigación muestra que el chatbot más famoso del mundo tuvo un peor desempeñó en ciertas tareas en junio que en su versión de marzo.
El estudio analizó dos versiones del chatbot de OpenAI durante el período de tiempo: una versión llamada GPT-3.5 y otra conocida como GPT-4.
Fue ahí donde se dieron cuenta de que, en marzo, GPT-4 pudo identificar correctamente que el número 17,077 es un número primo el 97% de las veces de las veces. Pero solo tres meses después, su precisión cayó a 2.4%.
En el caso del modelo 3.5, la versión de marzo respondió correctamente a la misma pregunta solo el 7.4% de las veces, mientras que la versión de junio lo hizo correctamente el 86.8%.
Durante una entrevista conFortune,联合国教授詹姆斯•邹de informatica de斯坦福大学y uno de los autores del estudio, aseguró que la "magnitud del cambio" fue inesperada.
"Cuando estamos ajustando un gran modelo de lenguaje para mejorar su rendimiento en ciertas tareas, puede tener muchas consecuencias no deseadas, que en realidad podrían perjudicar el rendimiento de este modelo en otras tareas. Hay todo tipo de interdependencias interesantes en la forma en que el modelo responde a las cosas que pueden conducir al empeoramiento de algunos de los comportamientos que observamos", indicó.
El estudio dio cuenta también de que las respuestas deChatGPTa preguntas delicadas (sobre temas de género o étnicos) se convirtieron en evasivas.
Las primeras versiones del chatbot explicaban detalladamente por qué no podían responder a determinadas preguntas delicadas. En junio, sin embargo, los modelos simplemente se disculparon con el usuario y se negaron a contestar.
Por lo anterior, los líderes de la investigación realizada por la Universidad de Stanford recomiendan a las empresassupervisar los resultados de ChatGPT, sin confiar ciegamente en su capacidad.
Relacionado: Le pedí a la IA que creara un plan estratégico para una empresa ficticia: los resultados me sorprendieron, pero no de la forma en que podrías imaginar