Microsoft anunció una actualización de GraphRAG que mejora la capacidad de los motores de búsqueda de inteligencia artificial para proporcionar respuestas específicas y completas utilizando menos recursos. Esta actualización acelera el procesamiento de LLM y aumenta la precisión.

La diferencia entre RAG y GraphRAG

RAG (Retrieval Augmented Generation) combina un modelo de lenguaje grande (LLM) con un índice de búsqueda (o base de datos) para generar respuestas a consultas de búsqueda. El índice de búsqueda fundamenta el modelo lingüístico con datos nuevos y relevantes. Esto reduce la posibilidad de que el motor de búsqueda de IA proporcione respuestas obsoletas o alucinadas.

GraphRAG mejora RAG al utilizar un gráfico de conocimiento creado a partir de un índice de búsqueda para luego generar resúmenes denominados informes comunitarios.

GraphRAG utiliza un proceso de dos pasos:

Paso 1: motor de indexación
El motor de indexación segmenta el índice de búsqueda en comunidades temáticas formadas en torno a temas relacionados. Estas comunidades están conectadas por entidades (p. ej., personas, lugares o conceptos) y las relaciones entre ellas, formando un gráfico de conocimiento jerárquico. Luego, el LLM crea un resumen para cada comunidad, denominado Informe comunitario. Este es el gráfico de conocimiento jerárquico que crea GraphRAG, y cada nivel de la estructura jerárquica representa un resumen.

Existe la idea errónea de que GraphRAG utiliza gráficos de conocimiento. Si bien eso es parcialmente cierto, omite la parte más importante: GraphRAG crea gráficos de conocimiento a partir de datos no estructurados, como páginas web, en el paso del motor de indexación. Este proceso de transformar datos sin procesar en conocimiento estructurado es lo que diferencia a GraphRAG de RAG, que se basa en recuperar y resumir información sin construir un gráfico jerárquico.

Paso 2: Paso de consulta
En el segundo paso, GraphRAG utiliza el gráfico de conocimiento que creó para proporcionar contexto al LLM para que pueda responder una pregunta con mayor precisión.

Microsoft explica que la Generación Aumentada de Recuperación (RAG) tiene dificultades para recuperar información basada en un tema porque solo analiza las relaciones semánticas.

GraphRAG supera a RAG al transformar primero todos los documentos en su índice de búsqueda en un gráfico de conocimiento que organiza jerárquicamente temas y subtemas (temas) en capas cada vez más específicas. Mientras que RAG se basa en relaciones semánticas para encontrar respuestas, GraphRAG utiliza similitud temática, lo que le permite localizar respuestas incluso cuando las palabras clave relacionadas semánticamente no están presentes en el documento.

Así lo explica el anuncio original de GraphRAG:

“Baseline RAG tiene dificultades con consultas que requieren agregación de información en todo el conjunto de datos para redactar una respuesta. Consultas como “¿Cuáles son los 5 temas principales en los datos?” funcionan terriblemente porque el RAG de referencia se basa en una búsqueda vectorial de contenido de texto semánticamente similar dentro del conjunto de datos. No hay nada en la consulta que la dirija a la información correcta.

Sin embargo, con GraphRAG podemos responder esas preguntas, porque la estructura del gráfico de conocimiento generado por LLM nos informa sobre la estructura (y por lo tanto los temas) del conjunto de datos en su conjunto. Esto permite que el conjunto de datos privado se organice en grupos semánticos significativos que están resumidos previamente. El LLM utiliza estos grupos para resumir estos temas al responder a la consulta de un usuario “.

Actualización a GraphRAG

En resumen, GraphRAG crea un gráfico de conocimiento a partir del índice de búsqueda. Una “comunidad” se refiere a un grupo de segmentos o documentos relacionados agrupados según similitudes temáticas, y un “informe comunitario” es el resumen generado por el LLM para cada comunidad.

La versión original de GraphRAG era ineficiente porque procesaba todos los informes de la comunidad, incluidos resúmenes irrelevantes de nivel inferior, independientemente de su relevancia para la consulta de búsqueda. Microsoft describe esto como un enfoque “estático”, ya que carece de filtrado dinámico.

El GraphRAG actualizado introduce una “selección de comunidad dinámica”, que evalúa la relevancia de cada informe de la comunidad. Se eliminan los informes irrelevantes y sus subcomunidades, lo que mejora la eficiencia y la precisión al centrarse únicamente en la información relevante.

Microsoft explica:

“Aquí, introducimos la selección dinámica de comunidades en el algoritmo de búsqueda global, que aprovecha la estructura del gráfico de conocimiento del conjunto de datos indexados. Comenzando desde la raíz del gráfico de conocimiento, utilizamos un LLM para calificar qué tan relevante es un informe de la comunidad para responder la pregunta del usuario. Si el informe se considera irrelevante, simplemente lo eliminamos junto con sus nodos (o subcomunidades) del proceso de búsqueda. Por otro lado, si el informe se considera relevante, recorremos sus nodos secundarios y repetimos la operación. Finalmente, solo se pasan informes relevantes a la operación de reducción de mapas para generar la respuesta al usuario. “

Conclusiones: resultados de GraphRAG actualizado

Microsoft probó la nueva versión de GraphRAG y concluyó que daba como resultado una reducción del 77 % en los costos computacionales, específicamente el costo del token cuando lo procesa el LLM. Los tokens son las unidades básicas de texto que procesan los LLM. El GraphRAG mejorado puede utilizar un LLM más pequeño, lo que reduce aún más los costos sin comprometer la calidad de los resultados.

Los impactos positivos en la calidad de los resultados de búsqueda son:

  • La búsqueda dinámica proporciona respuestas que son información más específica.
  • Responses hace más referencias al material fuente, lo que mejora la credibilidad de las respuestas.
  • Los resultados son más completos y específicos de la consulta del usuario, lo que ayuda a no ofrecer demasiada información.

La selección dinámica de comunidades en GraphRAG mejora la calidad de los resultados de búsqueda al generar respuestas más específicas, relevantes y respaldadas por material fuente.

Lea el anuncio de Microsoft:

GraphRAG: mejora de la búsqueda global mediante la selección dinámica de comunidades

Imagen destacada de Shutterstock/N Universe

Con información de Search Engine Journal.

Leer la nota Completa > La actualización GraphRAG mejora los resultados de búsqueda de IA

LEAVE A REPLY

Please enter your comment!
Please enter your name here