Los investigadores descubrieron una manera de superar las barreras de seguridad en GPT4 y GPT4-Turbo, desbloqueando la capacidad de generar contenido dañino y tóxico, esencialmente superando un modelo de lenguaje grande con otro modelo de lenguaje grande.

Los investigadores descubrieron que el uso del razonamiento de árbol de pensamiento (ToT) para repetir y refinar una línea de ataque era útil para liberar otro modelo de lenguaje grande.

Lo que descubrieron es que el enfoque ToT tuvo éxito contra GPT4, GPT4-Turbo y PaLM-2, utilizando un número notablemente bajo de consultas para obtener un jailbreak, en promedio menos de treinta consultas.

Arbol De Los Pensamientos Razonamiento

Un artículo de investigación de Google de alrededor de mayo de 2022 descubrió la cadena de estímulos del pensamiento.

Chain of Thought (CoT) es una estrategia de estimulación utilizada en una IA generativa para hacer que siga una secuencia de pasos para resolver un problema y completar una tarea. El método CoT suele ir acompañado de ejemplos para mostrar al LLM cómo funcionan los pasos en una tarea de razonamiento.

Entonces, en lugar de simplemente pedirle a una IA generativa como Midjourney o ChatGPT que realice una tarea, el método de la cadena de pensamiento le indica a la IA cómo seguir un camino de razonamiento que se compone de una serie de pasos.

El razonamiento del Árbol de Pensamientos (ToT), a veces denominado Árbol del Pensamiento (singular), es esencialmente una variación y mejora de CoT, pero son dos cosas diferentes.

El razonamiento del Árbol de Pensamientos es similar al CoT. La diferencia es que, en lugar de entrenar una IA generativa para que siga un único camino de razonamiento, ToT se basa en un proceso que permite múltiples caminos para que la IA pueda detenerse y autoevaluarse y luego proponer pasos alternativos.

El razonamiento del Árbol de los pensamientos se desarrolló en mayo de 2023 en un artículo de investigación titulado Árbol de los pensamientos: resolución deliberada de problemas con modelos de lenguaje grandes (PDF)

El artículo de investigación describe el Árbol del Pensamiento:

“…introducimos un nuevo marco para la inferencia de modelos de lenguaje, el Árbol de Pensamientos (ToT), que generaliza el popular enfoque de Cadena de Pensamiento para generar modelos de lenguaje y permite la exploración de unidades coherentes de texto (pensamientos) que sirven como pasos intermedios hacia resolución de problemas.

ToT permite a los LM tomar decisiones deliberadas al considerar múltiples caminos de razonamiento diferentes y opciones de autoevaluación para decidir el próximo curso de acción, así como mirar hacia adelante o retroceder cuando sea necesario para tomar decisiones globales.

Nuestros experimentos muestran que ToT mejora significativamente las habilidades de resolución de problemas de los modelos lingüísticos…”

Árbol De Ataques Con Poda (TAP)

Este nuevo método para liberar modelos de lenguaje grandes se llama Árbol de ataques con poda, TAP. TAP utiliza dos LLM, uno para atacar y otro para evaluar.

TAP puede superar a otros métodos de jailbreak por márgenes significativos y solo requiere acceso de caja negra al LLM.

En informática, una caja negra es donde se puede ver lo que entra en un algoritmo y lo que sale. Pero se desconoce qué sucede en el medio, por eso se dice que está en una caja negra.

El razonamiento del árbol de pensamientos (TAP) se utiliza contra un LLM específico como GPT-4 para probar repetidamente diferentes indicaciones, evaluar los resultados y luego, si es necesario, cambiar de rumbo si ese intento no es prometedor.

A esto se le llama proceso de iteración y poda. Cada intento de estímulo se analiza para determinar la probabilidad de éxito. Si se considera que el camino del ataque es un callejón sin salida, el LLM “podará” ese camino de ataque y comenzará otra y mejor serie de ataques motivadores.

Por eso se llama “árbol“En el sentido de que, en lugar de utilizar un proceso lineal de razonamiento que es el sello distintivo de las indicaciones en cadena de pensamiento (CoT), las indicaciones en árbol de pensamiento no son lineales porque el proceso de razonamiento se bifurca a otras áreas del razonamiento, de forma muy similar a como lo haría un ser humano. .

El atacante emite una serie de indicaciones, el evaluador evalúa las respuestas a esas indicaciones y luego toma una decisión sobre cuál será la siguiente ruta de ataque al hacer una llamada sobre si la ruta de ataque actual es irrelevante o no, además de También evalúa los resultados para determinar el éxito probable de las indicaciones que aún no se han probado.

Lo notable de este enfoque es que este proceso reduce la cantidad de indicaciones necesarias para hacer jailbreak a GPT-4. Además, con TAP se descubre una mayor cantidad de mensajes de jailbreak que con cualquier otro método de jailbreak.

Los investigadores observan:

“En este trabajo, presentamos Tree of Attacks with Pruning (TAP), un método automatizado para generar jailbreak que solo requiere acceso de caja negra al LLM objetivo.

TAP utiliza un LLM para refinar de forma iterativa las indicaciones de los candidatos (de ataque) utilizando un razonamiento de árbol de pensamientos hasta que una de las indicaciones generadas libera al objetivo.

Fundamentalmente, antes de enviar mensajes al objetivo, TAP los evalúa y elimina aquellos que probablemente no resulten en fugas.

El uso del razonamiento de árbol de pensamiento permite a TAP navegar en un gran espacio de búsqueda de mensajes y la poda reduce la cantidad total de consultas enviadas al objetivo.

En evaluaciones empíricas, observamos que TAP genera mensajes que liberan LLM de última generación (incluidos GPT4 y GPT4-Turbo) para más del 80% de los mensajes utilizando solo una pequeña cantidad de consultas. Esto mejora significativamente el método de caja negra de última generación anterior para generar jailbreak”.

El árbol del pensamiento (ToT) supera al razonamiento de la cadena de pensamiento (CoT)

Otra conclusión interesante alcanzada en el artículo de investigación es que, para esta tarea en particular, el razonamiento ToT supera al razonamiento CoT, incluso cuando se agrega poda al método CoT, donde las indicaciones fuera de tema se podan y descartan.

ToT tiene un rendimiento inferior al GPT 3.5 Turbo

Los investigadores descubrieron que ChatGPT 3.5 Turbo no funcionó bien con CoT, revelando las limitaciones de GPT 3.5 Turbo. En realidad, GPT 3.5 tuvo un desempeño extremadamente pobre, pasando de una tasa de éxito del 84 % a solo una tasa de éxito del 4,2 %.

Esta es su observación sobre por qué GPT 3.5 tiene un rendimiento inferior:

“Observamos que la elección del evaluador puede afectar el rendimiento de TAP: cambiar el atacante de GPT4 a GPT3.5-Turbo reduce la tasa de éxito del 84% al 4,2%.

El motivo de la reducción en la tasa de éxito es que GPT3.5-Turbo determina incorrectamente que el modelo objetivo tiene jailbreak (para el objetivo previsto) y, por lo tanto, detiene el método de forma preventiva.

Como consecuencia, la variante envía muchas menos consultas que el método original…”

Lo que esto significa para ti

Si bien es divertido que los investigadores utilicen el método ToT para superar a un LLM con otro LLM, también resalta la utilidad de ToT para generar nuevas direcciones sorprendentes en las indicaciones para lograr niveles más altos de rendimiento.

  • Conclusiones de TL/DR:
  • Árbol del pensamiento que provocó métodos de cadena de pensamiento superados
  • GPT 3.5 funcionó significativamente mal en comparación con GPT 4 en ToT
  • La poda es una parte útil de una estrategia de estímulo.
  • La investigación demostró que ToT es superior a CoT en una tarea de razonamiento intensivo como hacer jailbreak a un LLM

Lea el artículo de investigación original:

Árbol de ataques: jailbreaking LLM de caja negra automáticamente (PDF)

Imagen destacada de Shutterstock/THE.STUDIO

Con información de Search Engine Journal.

Leer la nota Completa > Una investigación muestra que el árbol del pensamiento incita mejor que la cadena de pensamiento

LEAVE A REPLY

Please enter your comment!
Please enter your name here