Los investigadores de Google introdujeron un método para mejorar la búsqueda de IA y los asistentes al mejorar la capacidad de los modelos de generación (RAG) de la generación (RAG) para reconocer cuándo la información recuperada carece de contexto suficiente para responder una consulta. Si se implementan, estos hallazgos podrían ayudar a las respuestas generadas por IA a evitar depender de información incompleta y mejorar la confiabilidad de las respuestas. Este cambio también puede alentar a los editores a crear contenido con un contexto suficiente, haciendo que sus páginas sean más útiles para las respuestas generadas por IA.
Su investigación encuentra que modelos como Gemini y GPT a menudo intentan responder preguntas cuando los datos recuperados contienen un contexto insuficiente, lo que lleva a alucinaciones en lugar de abstenerse. Para abordar esto, desarrollaron un sistema para reducir las alucinaciones al ayudar a los LLM a determinar cuándo el contenido recuperado contiene suficiente información para respaldar una respuesta.
Los sistemas de generación de recuperación de la generación (RAG) aumentan las LLM con contexto externo para mejorar la precisión de la pregunta, pero aún se producen alucinaciones. No se entendió claramente si estas alucinaciones surgieron de la mala interpretación de LLM o del contexto recuperado insuficiente. El documento de investigación introduce el concepto de contexto suficiente y describe un método para determinar cuándo hay suficiente información disponible para responder una pregunta.
Su análisis encontró que los modelos propietarios como Géminis, GPT y Claude tienden a proporcionar respuestas correctas cuando se les da suficiente contexto. Sin embargo, cuando el contexto es insuficiente, a veces alucinan en lugar de abstenerse, pero también responden correctamente el 35-65% del tiempo. Ese último descubrimiento agrega otro desafío: saber cuándo intervenir para forzar la abstención (no responder) y cuándo confiar en el modelo para hacerlo bien.
Definición del contexto suficiente
Los investigadores definen el contexto suficiente como lo que significa que la información recuperada (de RAG) contiene todos los detalles necesarios para obtener una respuesta correcta. La clasificación de que algo contiene contexto suficiente no requiere que sea una respuesta verificada. Solo está evaluando si una respuesta puede derivarse plausiblemente del contenido proporcionado.
Esto significa que la clasificación no está verificando la corrección. Está evaluando si la información recuperada proporciona una base razonable para responder a la consulta.
El contexto insuficiente significa que la información recuperada es incompleta, engañosa o falta de detalles críticos necesarios para construir una respuesta.
Autorizador de contexto suficiente
El contexto de contexto suficiente es un sistema basado en LLM que clasifica los pares de contexto de consulta como un contexto suficiente o insuficiente. El modelo de autórico de mejor rendimiento fue Gemini 1.5 Pro (1-SHOT), logrando una tasa de precisión del 93%, superando a otros modelos y métodos.
Reducción de alucinaciones con generación selectiva
Los investigadores descubrieron que las respuestas LLM basadas en RAG pudieron responder correctamente las preguntas del 35 al 62% del tiempo cuando los datos recuperados tenían un contexto insuficiente. Eso significaba que el contexto suficiente no siempre era necesario para mejorar la precisión porque los modelos podían devolver la respuesta correcta sin él el 35-62% del tiempo.
Utilizaron su descubrimiento sobre este comportamiento para crear un método de generación selectiva que use puntajes de confianza y señales de contexto suficientes para decidir cuándo generar una respuesta y cuándo abstenerse (para evitar hacer declaraciones incorrectas y alucinar).
Los puntajes de confianza son probabilidades autoevaluadas de que la respuesta es correcta. Esto logra un equilibrio entre permitir que la LLM responda una pregunta cuando hay una fuerte certeza, es correcta y al mismo tiempo recibir intervención para cuando hay un contexto suficiente o insuficiente para responder una pregunta, para aumentar aún más la precisión.
Los investigadores describen cómo funciona:
“… Usamos estas señales para entrenar un modelo lineal simple para predecir alucinaciones, y luego lo usamos para establecer umbrales de compensación de recorte de cobertura.
Este mecanismo difiere de otras estrategias para mejorar la abstención de dos maneras clave. Primero, debido a que funciona de forma independiente de la generación, mitiga los efectos aguas abajo no intencionados … Segundo, ofrece un mecanismo controlable para ajustar la abstención, lo que permite diferentes configuraciones operativas en diferentes aplicaciones, como el cumplimiento de precisión estricto en los dominios de medicina o la cobertura máxima en las tareas de generación creativa “.
Comida para llevar
Antes de que alguien comience a afirmar que la suficiencia del contexto es un factor de clasificación, es importante tener en cuenta que el trabajo de investigación no afirma que la IA siempre priorizará las páginas bien estructuradas. La suficiencia del contexto es un factor, pero con este método específico, los puntajes de confianza también influyen en las respuestas generadas por la IA al intervenir con las decisiones de abstención. Los umbrales de abstención se ajustan dinámicamente en función de estas señales, lo que significa que el modelo puede optar por no responder si la confianza y la suficiencia son bajas.
Si bien las páginas con información completa y bien estructurada tienen más probabilidades de contener un contexto suficiente, otros factores, como qué tan bien, la IA selecciona y clasifica la información relevante, el sistema que determina qué fuentes se recuperan y cómo se capacita el LLM también juega un papel. No puede aislar un factor sin considerar el sistema más amplio que determina cómo la IA recupera y genera respuestas.
Si estos métodos se implementan en un asistente de IA o chatbot, podría conducir a respuestas generadas por IA que se basan cada vez más en páginas web que proporcionan información completa y bien estructurada, ya que es más probable que contengan un contexto suficiente para responder una consulta. La clave es proporcionar suficiente información en una sola fuente para que la respuesta tenga sentido sin requerir investigación adicional.
¿Qué son las páginas con un contexto insuficiente?
- Falta de suficientes detalles para responder una consulta
- Engañoso
- Incompleto
- Contradictorio
- Información incompleta
- El contenido requiere conocimiento previo
La información necesaria para completar la respuesta se dispersa en diferentes secciones en lugar de presentarse en una respuesta unificada.
Las pautas de evaluación de calidad de terceros de Google (QRG) tienen conceptos similares a la suficiencia del contexto. Por ejemplo, el QRG define páginas de baja calidad como aquellas que no alcanzan bien su propósito porque no proporcionan antecedentes necesarios, detalles o información relevante para el tema.
Pasajes de las pautas de evaluación de calidad:
“Las páginas de baja calidad no alcanzan bien su propósito porque carecen de una dimensión importante o tienen un aspecto problemático”
“Una página titulada ‘¿Cuántos centímetros hay en un metro?’ con una gran cantidad de contenido fuera de tema e inútil de tal manera que la muy pequeña cantidad de información útil es difícil de encontrar ”.
“Una página de tutorial de elaboración con instrucciones sobre cómo hacer una artesanía básica y mucho ‘relleno’ inútil en la parte superior, como hechos comúnmente conocidos sobre los suministros necesarios u otra información de no certificado”.
“… una gran cantidad de ‘relleno’ o contenido sin sentido …”
Incluso si las descripciones de Gemini o AI de Google no implementan los inventos en este trabajo de investigación, muchos de los conceptos descritos en él tienen análogos en las pautas de la calidad del evaluador de Google que describen conceptos sobre páginas web de alta calidad que los SEO y los editores que desean clasificar deberían ser internalizantes.
Imagen destacada de Shutterstock/Chris Wm Willemsen
Con información de Search Engine Journal.
Leer la nota Completa > Los investigadores de Google mejoran el trapo con señal de “contexto suficiente”