La experiencia generativa de búsqueda de Google (SGE) estaba programada para expirar como experimento de Google Labs a fines de 2023, pero su tiempo como experimento se extendió silenciosamente, dejando en claro que SGE no llegará a realizar búsquedas en un futuro cercano. Sorprendentemente, dejar que Microsoft tomara la iniciativa puede haber sido el mejor enfoque, quizás no intencionado, para Google.
La estrategia de inteligencia artificial de Google para la búsqueda
La decisión de Google de mantener SGE como un proyecto de Google Labs encaja en la tendencia más amplia de la historia de Google de preferir integrar la IA en segundo plano.
La presencia de IA no siempre es evidente, pero ha sido parte de la Búsqueda de Google en segundo plano durante más tiempo de lo que la mayoría de la gente cree.
El primer uso de la IA en la búsqueda fue como parte del algoritmo de clasificación de Google, un sistema conocido como RankBrain. RankBrain ayudó a los algoritmos de clasificación a comprender cómo las palabras de las consultas de búsqueda se relacionan con los conceptos del mundo real.
Según Google:
“Cuando lanzamos RankBrain en 2015, fue el primer sistema de aprendizaje profundo implementado en la Búsqueda. En ese momento, fue innovador… RankBrain (como su nombre indica) se utiliza para ayudar a clasificar (o decidir el mejor orden) los mejores resultados de búsqueda”.
La siguiente implementación fue Neural Matching, que ayudó a los algoritmos de Google a comprender conceptos más amplios en consultas de búsqueda y páginas web.
Y uno de los sistemas de inteligencia artificial más conocidos que ha implementado Google es el Modelo Unificado Multitarea, también conocido como Google MUM. MUM es un sistema de inteligencia artificial multimodal que abarca la comprensión de imágenes y texto y es capaz de ubicarlos dentro de los contextos tal como están escritos en una oración o una consulta de búsqueda.
SpamBrain, la IA de lucha contra el spam de Google, es muy probablemente una de las implementaciones más importantes de la IA como parte del algoritmo de búsqueda de Google porque ayuda a eliminar sitios de baja calidad.
Todos estos son ejemplos del enfoque de Google para utilizar la IA en segundo plano para resolver diferentes problemas dentro de la búsqueda como parte de un algoritmo central más amplio.
Es probable que Google hubiera seguido usando IA en segundo plano hasta que los modelos de lenguaje grande (LLM) basados en transformadores pudieran pasar a primer plano.
Pero la integración de ChatGPT en Bing por parte de Microsoft obligó a Google a tomar medidas para agregar IA de una manera más destacada con su Experiencia Generativa de Búsqueda (SGE).
¿Por qué mantener SGE en Google Labs?
Teniendo en cuenta que Microsoft ha integrado ChatGPT en Bing, puede parecer curioso que Google no haya dado un paso similar y, en cambio, mantenga SGE en Google Labs. Hay buenas razones para el enfoque de Google.
Uno de los principios rectores de Google para el uso de la IA es utilizarla únicamente una vez que se haya demostrado que la tecnología tiene éxito y se implementa de una manera que se pueda confiar en que sea responsable y esas son dos cosas que la IA generativa no es capaz de hacer hoy en día.
Hay al menos tres grandes problemas que deben resolverse antes de que la IA pueda integrarse con éxito en el primer plano de la búsqueda:
- Los LLM no se pueden utilizar como un sistema de recuperación de información porque es necesario volver a capacitarlos por completo para agregar nuevos datos. .
- La arquitectura de transformadores es ineficiente y costosa.
- La IA generativa tiende a crear hechos erróneos, un fenómeno conocido como alucinación.
Por qué la IA no se puede utilizar como motor de búsqueda
Uno de los problemas más importantes a resolver antes de que la IA pueda usarse como backend y frontend de un motor de búsqueda es que los LLM no pueden funcionar como un índice de búsqueda donde se agregan nuevos datos continuamente.
En términos simples, lo que sucede es que en un motor de búsqueda normal, agregar nuevas páginas web es un proceso en el que el motor de búsqueda calcula el significado semántico de las palabras y frases dentro del texto (un proceso llamado “incrustación”), lo que las hace buscables y listo para ser integrado en el índice.
Luego, el motor de búsqueda tiene que actualizar todo el índice para comprender (por así decirlo) dónde encajan las nuevas páginas web en el índice de búsqueda general.
La adición de nuevas páginas web puede cambiar la forma en que el motor de búsqueda entiende y relaciona todas las demás páginas web que conoce, por lo que revisa todas las páginas web en su índice y actualiza sus relaciones entre sí si es necesario. Esta es una simplificación con el fin de comunicar el sentido general de lo que significa agregar nuevas páginas web a un índice de búsqueda.
A diferencia de la tecnología de búsqueda actual, los LLM no pueden agregar nuevas páginas web a un índice porque el acto de agregar nuevos datos requiere una recapacitación completa de todo el LLM.
Google está investigando cómo solucionar este problema para crear un motor de búsqueda LLM basado en transformadores, pero el problema no está solucionado, ni mucho menos.
Para comprender por qué sucede esto, es útil echar un vistazo rápido a un artículo de investigación reciente de Google del que son coautores Marc Najork y Donald Metzler (y varios otros coautores). Menciono sus nombres porque ambos investigadores casi siempre están asociados con algunas de las investigaciones más importantes que surgen de Google. Entonces, si tiene alguno de sus nombres, entonces la investigación probablemente sea muy importante.
En la siguiente explicación, el índice de búsqueda se denomina memoria porque un índice de búsqueda es una memoria de lo que se ha indexado.
El trabajo de investigación se titula: “DSI++: Actualización de la memoria del transformador con nuevos documentos” (PDF)
El uso de LLM como motores de búsqueda es un proceso que utiliza una tecnología llamada índices de búsqueda diferenciables (DSI). La tecnología de índice de búsqueda actual se denomina codificador dual.
El artículo de investigación explica:
“…la construcción de índices utilizando un DSI implica entrenar un modelo Transformer. Por lo tanto, el modelo debe volver a entrenarse desde cero cada vez que se actualiza el corpus subyacente, lo que incurre en costos computacionales prohibitivamente altos en comparación con los codificadores duales”.
El artículo continúa explorando formas de resolver el problema de los LLM que “olvidan”, pero al final del estudio afirman que solo avanzaron hacia una mejor comprensión de lo que debe resolverse en futuras investigaciones.
Concluyen:
“En este estudio, exploramos el fenómeno del olvido en relación con la adición de documentos nuevos y distintos al indexador. Es importante señalar que cuando un documento nuevo refuta o modifica un documento previamente indexado, el comportamiento del modelo se vuelve impredecible y requiere un análisis más detallado.
Además, examinamos la efectividad de nuestro método propuesto en un conjunto de datos más grande, como el conjunto de datos completo de MS MARCO. Sin embargo, vale la pena señalar que con este conjunto de datos más grande, el método presenta un olvido significativo. Como resultado, se necesita investigación adicional para mejorar el rendimiento del modelo, particularmente cuando se trata de conjuntos de datos de escalas mayores”.
Los LLM no pueden verificar los hechos por sí mismos
Google y muchos otros también están investigando múltiples formas de hacer que la IA verifique los hechos para evitar dar información falsa (lo que se conoce como alucinaciones). Pero hasta ahora esa investigación no está logrando avances significativos.
La experiencia de Bing con la IA en primer plano
Bing tomó un camino diferente al incorporar IA directamente en su interfaz de búsqueda en un enfoque híbrido que unió un motor de búsqueda tradicional con una interfaz de IA. Este nuevo tipo de motor de búsqueda renovó la experiencia de búsqueda y diferenció a Bing de la competencia para los usuarios de motores de búsqueda.
La integración de la IA de Bing inicialmente generó un gran revuelo, atrayendo a los usuarios intrigados por la novedad de una interfaz de búsqueda impulsada por la IA. Esto resultó en un aumento en la participación de los usuarios de Bing.
Pero después de casi un año de rumores, la participación de mercado de Bing sólo experimentó un aumento marginal. Informes recientes, incluido uno del Boston Globe, indican un crecimiento de menos del 1% en la participación de mercado desde la introducción de Bing Chat.
La estrategia de Google se valida en retrospectiva
La experiencia de Bing sugiere que la IA en el primer plano de un motor de búsqueda puede no ser tan efectiva como se esperaba. El modesto aumento en la participación de mercado plantea dudas sobre la viabilidad a largo plazo de un motor de búsqueda basado en chat y valida el enfoque cauteloso de Google de utilizar IA en segundo plano.
El enfoque de Google en la IA en el fondo de la búsqueda queda justificado a la luz del fracaso de Bing en lograr que los usuarios abandonaran Google por Bing.
La estrategia de mantener la IA en segundo plano, donde en este momento funciona mejor, permitió a Google mantener a los usuarios mientras la tecnología de búsqueda de IA madura en Google Labs, donde pertenece.
El enfoque de Bing de utilizar la IA en primer plano ahora sirve casi como una advertencia sobre los peligros de lanzar rápidamente una tecnología antes de que se comprendan completamente sus beneficios, proporcionando información sobre las limitaciones de ese enfoque.
Irónicamente, Microsoft está encontrando mejores formas de integrar la IA como tecnología de fondo en forma de funciones útiles agregadas a sus productos de oficina basados en la nube.
El futuro de la IA en la búsqueda
El estado actual de la tecnología de IA sugiere que es más eficaz como herramienta que respalda las funciones de un motor de búsqueda en lugar de servir como la parte delantera y trasera de un motor de búsqueda o incluso como un enfoque híbrido que los usuarios se han negado a adoptar.
La estrategia de Google de lanzar nuevas tecnologías sólo cuando hayan sido completamente probadas explica por qué Search Generative Experience pertenece a Google Labs.
Sin duda, la IA asumirá un papel más audaz en la búsqueda, pero ese día definitivamente no es hoy. Espere ver a Google agregar más funciones basadas en inteligencia artificial a más de sus productos y puede que no sea sorprendente ver a Microsoft continuar por ese camino también.
Imagen destacada de Shutterstock/ProStockStudio
Con información de Search Engine Journal.
Leer la nota Completa > Por qué Google SGE está atascado en Google Labs y qué sigue