Las revelaciones de que OpenAI financió en secreto y tuvo acceso al conjunto de datos de evaluación comparativa de FrontierMath están generando preocupaciones sobre si se utilizó para entrenar su modelo de razonamiento o3 AI y la validez de las altas puntuaciones del modelo.
Además de acceder al conjunto de datos de evaluación comparativa, OpenAI financió su creación, un hecho que se ocultó a los matemáticos que contribuyeron al desarrollo de FrontierMath. Epoch AI reveló tardíamente la financiación de OpenAI sólo en el artículo final publicado en Arxiv.org, que anunció el punto de referencia. Las versiones anteriores del documento omitieron cualquier mención de la participación de OpenAI.
Captura de pantalla del papel FrontierMath
Primer plano de reconocimiento
Versión anterior del artículo que carecía de acuse de recibo
El modelo OpenAI 03 obtuvo una puntuación alta en el punto de referencia FrontierMath
La noticia de la participación secreta de OpenAI está generando dudas sobre las altas puntuaciones logradas por el modelo de IA de razonamiento o3 y provocando decepción con el proyecto FrontierMath. Epoch AI respondió con transparencia sobre lo sucedido y lo que están haciendo para verificar si el modelo o3 fue entrenado con el conjunto de datos de FrontierMath.
Dar acceso a OpenAI al conjunto de datos fue inesperado porque el objetivo es probar modelos de IA, pero eso no se puede hacer si los modelos conocen las preguntas y respuestas de antemano.
Una publicación en el subreddit r/singularity expresó esta decepción y citó un documento que afirmaba que los matemáticos no sabían sobre la participación de OpenAI:
“Frontier Math, el reciente punto de referencia matemático de vanguardia, está financiado por OpenAI. OpenAI supuestamente tiene acceso a los problemas y soluciones. Esto es decepcionante porque el punto de referencia se vendió al público como un medio para evaluar modelos de frontera, con el apoyo de matemáticos de renombre. En realidad, Epoch AI está creando conjuntos de datos para OpenAI. Nunca antes revelaron ningún vínculo con OpenAI”.
La discusión de Reddit citó una publicación que reveló la participación más profunda de OpenAI:
“Los matemáticos que crearon los problemas para FrontierMath no estaban (activamente)[2] comunicado a sobre la financiación de OpenAI.
…Ahora Epoch AI u OpenAI no dicen públicamente que OpenAI tiene acceso a los ejercicios, respuestas o soluciones. He oído de segunda mano que OpenAI tiene acceso a ejercicios y respuestas y que los utiliza para la validación”.
Tamay Besiroglu (perfil de LinkedIn), directora asociada de Epoch AI, reconoció que OpenAI tenía acceso a los conjuntos de datos, pero también afirmó que había un conjunto de datos “reticente” al que OpenAI no tenía acceso.
Escribió en el documento citado:
“Tamay de la Época AI aquí.
Cometimos un error al no ser más transparentes sobre la participación de OpenAI. Se nos restringió la divulgación de la asociación hasta aproximadamente el momento en que se lanzó o3 y, en retrospectiva, deberíamos haber negociado más intensamente para poder ser transparentes con los contribuyentes de referencia lo antes posible. Nuestro contrato nos impidió específicamente revelar información sobre la fuente de financiación y el hecho de que OpenAI tiene acceso a gran parte del conjunto de datos, pero no a todo. Somos dueños de este error y estamos comprometidos a hacerlo mejor en el futuro.
Con respecto al uso de la capacitación: reconocemos que OpenAI tiene acceso a una gran fracción de los problemas y soluciones de FrontierMath, con la excepción de un conjunto de reservas no visto por OpenAI que nos permite verificar de forma independiente las capacidades del modelo. Sin embargo, tenemos un acuerdo verbal de que estos materiales no se utilizarán en la capacitación modelo.
OpenAI también ha apoyado plenamente nuestra decisión de mantener un conjunto de reservas separado e invisible: una protección adicional para evitar el sobreajuste y garantizar una medición precisa del progreso. Desde el primer día, FrontierMath fue concebido y presentado como una herramienta de evaluación, y creemos que estos acuerdos reflejan ese propósito. “
Se revelan más datos sobre OpenAI y FrontierMath
Elliot Glazer (perfil de LinkedIn/perfil de Reddit), el matemático principal de Epoch AI, confirmó que OpenAI tiene el conjunto de datos y que se les permitió usarlo para evaluar el modelo de lenguaje grande o3 de OpenAI, que es su próxima IA de última generación a la que se hace referencia. como modelo de inteligencia artificial de razonamiento. Ofreció su opinión de que las altas puntuaciones obtenidas por el modelo o3 son “legítimas” y que Epoch AI está realizando una evaluación independiente para determinar si o3 tuvo acceso al conjunto de datos FrontierMath para entrenamiento, lo que podría arrojar las altas puntuaciones del modelo en una luz diferente.
Él escribió:
“El principal matemático de Epoch aquí. Sí, la OAI financió esto y tiene el conjunto de datos que les permitió evaluar o3 internamente. Todavía no hemos verificado de forma independiente su afirmación del 25%. Para hacerlo, actualmente estamos desarrollando un conjunto de datos de reserva y podremos probar su modelo sin que tengan ninguna exposición previa a estos problemas.
Mi opinión personal es que la puntuación de la OAI es legítima (es decir, no se entrenaron con el conjunto de datos) y que no tienen ningún incentivo para mentir sobre el desempeño de las evaluaciones comparativas internas. Sin embargo, no podemos responder por ellos hasta que se complete nuestra evaluación independiente”.
Glazer también había compartido que Epoch AI iba a probar o3 utilizando un conjunto de datos “restringido” al que OpenAI no tenía acceso, diciendo:
“Vamos a evaluar o3 con OAI sin exposición previa a los problemas de retención. Esto será hermético”.
Otra publicación en Reddit de Glazer describió cómo se creó el “conjunto de reserva”:
“Describiremos el proceso más claramente cuando la evaluación del conjunto de reserva esté realmente terminada, pero elegimos los problemas de reserva al azar de un conjunto más grande que se agregará a FrontierMath. Por lo demás, el proceso de producción es idéntico a como siempre ha sido”.
Esperando respuestas
Ahí es donde permanece el drama hasta que se complete la evaluación de Epoch AI, que indicará si OpenAI había entrenado o no su modelo de razonamiento de IA con el conjunto de datos o solo lo usó para compararlo.
Imagen destacada de Shutterstock/Antonello Marangi
Con información de Search Engine Journal.
Leer la nota Completa > Conjunto de datos de evaluación comparativa financiado en secreto por OpenAI vinculado al modelo o3