Los investigadores descubrieron una nueva forma de hacer jailbreak a ChatGPT 4 para que ya no tenga barreras que le prohíban dar consejos peligrosos. El enfoque, llamado Jailbreak de lenguajes de bajos recursos”, logra una sorprendente tasa de éxito total del 79%.

Chat de jailbreakGPT

Jailbreaking es una palabra creada para describir el acto de eludir las restricciones del software del iPhone para desbloquear modificaciones prohibidas.

Cuando se aplica a ChatGPT, significa sortear las “barandillas” de seguridad que impiden que ChatGPT proporcione información dañina.

Por ejemplo, los investigadores lograron que GPT-4 proporcionara instrucciones sobre cómo robar en una tienda, aconsejando cronometrar el robo en horas en las que la tienda esté llena.

Falsa sensación de seguridad

Los investigadores destacaron que las medidas de seguridad implementadas para la IA generativa son inadecuadas porque los desarrolladores de ChatGPT centran sus esfuerzos en derrotar los ataques en inglés, creando sin darse cuenta lagunas en “idiomas de bajos recursos” que pueden ser explotadas.

Los lenguajes de bajos recursos son lenguajes en los que el modelo de lenguaje grande no estuvo expuesto a capacitación de seguridad o a datos que no se generalizaron a otros lenguajes.

Se sugiere que la única forma de construir barreras de seguridad más sólidas es crear nuevos conjuntos de datos en lenguajes de bajos recursos.

El artículo de investigación señala que el enfoque actual en los puntos de referencia del idioma inglés crea una falsa sensación de seguridad.

Lo que aparentemente sucedió es que los investigadores de seguridad de LLM subestimaron la capacidad de los modelos de lenguaje grandes para usar idiomas en los que no recibieron datos de capacitación en seguridad.

Los investigadores señalaron:

“En muchos de los casos, traducir las respuestas de GPT-4 al inglés arroja resultados coherentes, relacionados con el tema y dañinos.

Esto sugiere que GPT-4 es capaz de comprender y generar contenido dañino en idiomas de bajos recursos”.

Captura de pantalla de jailbreaks exitosos de ChatGPT

Cómo se descubrió el jailbreak multilingüe

Los investigadores tradujeron indicaciones inseguras a doce idiomas y luego compararon los resultados con otros métodos conocidos de jailbreak.

Lo que descubrieron fue que traducir indicaciones dañinas al zulú o al gaélico escocés provocaba con éxito respuestas dañinas de GPT-4 a una tasa cercana al 50%.

Para poner esto en perspectiva, el uso de las indicaciones originales en inglés logró una tasa de éxito inferior al 1%.

La técnica no funcionó con todos los lenguajes de bajos recursos.

Por ejemplo, el uso de las lenguas hmong y guaraní logró resultados menos exitosos al generar respuestas sin sentido.

En otras ocasiones, GPT-4 generó traducciones de las indicaciones al inglés en lugar de generar contenido dañino.

Aquí está la distribución de los idiomas evaluados y la tasa de éxito expresada como porcentajes.

Porcentajes de tasa de éxito y lenguaje

  • Zulú 53.08
  • Gaélico escocés 43,08
  • hmong 28,85
  • Guaraní 15,96
  • bengalí 13.27
  • Tailandés 10.38
  • Hebreo 7.12
  • hindi 6,54
  • Árabe estándar moderno 3.65
  • Mandarín simplificado 2.69
  • Ucraniano 2.31
  • italiano 0,58
  • Inglés (sin traducción) 0,96

Los investigadores alertaron a OpenAI

Los investigadores señalaron que alertaron a OpenAI sobre la vulnerabilidad multilingüe GPT-4 antes de hacer pública esta información, que es el método normal y responsable de proceder con el descubrimiento de vulnerabilidades.

Sin embargo, los investigadores expresaron la esperanza de que esta investigación fomente medidas de seguridad más sólidas que tengan en cuenta más idiomas.

Lea el artículo de investigación original:

Jailbreak GPT-4 para idiomas de bajos recursos (PDF)

Con información de Search Engine Journal.

Leer la nota Completa > GPT-4 Jailbreak supera fácilmente las barreras de seguridad

LEAVE A REPLY

Please enter your comment!
Please enter your name here