DeepMind de Google publicó un artículo de investigación que propone una forma de entrenar grandes modelos de lenguaje para que proporcionen respuestas más confiables y sean resistentes al pirateo de recompensas, un paso en el desarrollo de sistemas de inteligencia artificial más adaptables y eficientes.
punta de sombrero para @EthanLazuk para tuiteando sobre un nuevo trabajo de investigación de Google DeepMind.
La IA tiene tendencia al hackeo de recompensas
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es un método utilizado para entrenar la IA generativa para que aprenda a ofrecer respuestas que reciban puntuaciones positivas por parte de evaluadores humanos. Las puntuaciones positivas son una recompensa por las respuestas correctas, por eso esta técnica se llama Aprendizaje por Refuerzo. Las puntuaciones positivas las dan los evaluadores humanos, por eso se llama aprendizaje por refuerzo a partir de la retroalimentación humana.
RLHF tiene un gran éxito, pero también tiene un efecto secundario no deseado en el que la IA aprende atajos y recibe una recompensa positiva. En lugar de proporcionar una respuesta correcta, proporciona una respuesta que tiene la apariencia de una respuesta correcta y cuando engaña a los evaluadores humanos (lo cual es un fallo del entrenamiento de refuerzo), la IA comienza a mejorar su capacidad para engañar a los evaluadores humanos con información inexacta. respuestas para recibir las recompensas (las calificaciones humanas positivas).
Esta tendencia de la IA a “hacer trampa” para ganar la recompensa del entrenamiento se llama Reward Hacking, que es lo que el estudio busca minimizar.
Las causas del hacking de recompensas en modelos de lenguaje grandes
Para resolver el problema del hackeo de recompensas, los investigadores identificaron dos áreas que conducen al hackeo de recompensas y que deben abordarse con su solución:
- Turnos de distribución
- Inconsistencias en las preferencias humanas.
Turnos de distribución
Los cambios de distribución se refieren a la situación en la que un LLM se entrena con un determinado tipo de conjunto de datos y luego, durante el aprendizaje por refuerzo, se expone a diferentes tipos de datos de entrenamiento que no ha visto antes. Este cambio en el tipo de datos se denomina cambio de distribución y podría causar que el modelo de lenguaje manipule el sistema de recompensa para dar una respuesta satisfactoria que de otro modo no estaría preparado para proporcionar.
Inconsistencias en las preferencias humanas
Esta es una referencia a que los humanos son inconsistentes en sus calificaciones al juzgar las respuestas proporcionadas por la IA. Por ejemplo, resolver el problema de la inconsistencia en las preferencias humanas es probablemente una de las motivaciones detrás de la creación de las Directrices para evaluadores de calidad de búsqueda de Google, que tienen el efecto de disminuir la influencia de las preferencias subjetivas.
Las preferencias humanas pueden variar de persona a persona. El aprendizaje por refuerzo a partir de la retroalimentación humana se basa en la retroalimentación humana en el proceso de entrenamiento del modelo de recompensa (RM) y son las inconsistencias las que pueden llevar a la piratería de recompensas.
Encontrar una solución es importante, como señalaron los investigadores:
“Este fenómeno de piratería de recompensas plantea numerosos problemas.
En primer lugar, degrada las actuaciones, manifestándose como resultados lingüísticamente defectuosos o innecesariamente detallados, que no reflejan las verdaderas preferencias humanas.
En segundo lugar, complica la selección de puntos de control debido a la falta de confiabilidad del RM proxy, haciéndose eco de la Ley de Goodhart: “cuando una medida se convierte en un objetivo, deja de ser una buena medida”.
En tercer lugar, puede generar adulación o amplificar los prejuicios sociales, lo que refleja la demografía limitada y sesgada de los proveedores de retroalimentación.
Por último, y lo más crítico, la desalineación debida a la piratería de recompensas puede convertirse en riesgos para la seguridad, en particular dada la rápida integración de los LLM en la vida cotidiana y la toma de decisiones críticas. “
Modelos de recompensa con peso promedio (WARM)
Los investigadores de Google DeepMind desarrollaron un sistema llamado Modelos de recompensa promedio de peso (WARM), que crea un modelo proxy a partir de la combinación de múltiples modelos de recompensa individuales, cada uno con ligeras diferencias. Con WARM, a medida que aumentan el número de modelos de recompensa (RM), promedian juntos y los resultados mejoran significativamente, y el sistema evita la disminución repentina de la confiabilidad como ocurre con los modelos estándar.
El sistema WARM, debido a que utiliza varios modelos más pequeños, tiene la ventaja de ser eficiente en cuanto a memoria y no ralentiza la capacidad del modelo para proporcionar respuestas, además de ser resistente a la piratería de recompensas.
WARM también hace que el modelo sea más confiable y consistente cuando se trata de datos cambiantes y más consistente.
Lo que me llamó la atención es su capacidad para seguir el “paradigma de aprendizaje automático actualizable” que se refiere a la capacidad de WARM para adaptarse y mejorar incorporando nuevos datos o cambios a lo largo del tiempo, sin empezar desde cero.
En la siguiente cita, WA significa promedio ponderado y RM significa modelo de recompensa.
Los investigadores explican:
“WARM representa un método flexible y pragmático para mejorar la alineación de la IA con los valores humanos y las normas sociales.
…WARM sigue el paradigma de aprendizaje automático actualizable, eliminando la necesidad de comunicación entre servidores, permitiendo así una paralelización vergonzosamente simple de RM.
Esto facilita su uso en escenarios de aprendizaje federado donde los datos deben permanecer privados; Además, WA agregaría una capa de privacidad y mitigación de prejuicios al reducir la memorización de preferencias privadas. Luego, una extensión sencilla de WARM combinaría RM entrenados en diferentes conjuntos de datos, por ejemplo, provenientes de diferentes (grupos de) etiquetadores.
…Además, como se ha demostrado que WA limita el olvido catastrófico, WARM podría respaldar perfectamente preferencias iterativas y en evolución”.
Limitaciones
Esta investigación señala el camino hacia más formas de mejorar la IA; no es una solución completa porque tiene limitaciones inherentes. Uno de los problemas es que no elimina por completo todas las formas de “correlaciones espurias o sesgos inherentes a los datos de preferencia.”
Sin embargo, concluyeron en tono optimista sobre el futuro de WARM:
“Nuestros resultados empíricos demuestran su eficacia cuando se aplican al resumen. Anticipamos que WARM contribuirá a sistemas de IA más alineados, transparentes y eficaces, fomentando una mayor exploración en el modelado de recompensas”.
Lea el trabajo de investigación:
CALIENTE: Sobre los beneficios de los modelos de recompensa con peso promedio
Imagen destacada de Shutterstock/Mansel Birst
Con información de Search Engine Journal.
Leer la nota Completa > Puede hacer que la IA sea más confiable