Microsoft ha anunciado actualizaciones de la infraestructura de búsqueda de Bing que incorporan modelos de lenguaje grandes (LLM), modelos de lenguaje pequeño (SLM) y nuevas técnicas de optimización.

Esta actualización tiene como objetivo mejorar el rendimiento y reducir los costos en la entrega de resultados de búsqueda.

En un anuncio, la empresa afirma:

“En Bing, siempre estamos superando los límites de la tecnología de búsqueda. Aprovechar tanto los modelos de lenguaje grandes (LLM) como los modelos de lenguaje pequeño (SLM) marca un hito importante en la mejora de nuestras capacidades de búsqueda. Si bien los modelos de transformadores nos han resultado útiles, la creciente complejidad de las consultas de búsqueda requirió modelos más potentes”.

Ganancias de rendimiento

El uso de LLM en sistemas de búsqueda puede crear problemas de velocidad y costo.

Para resolver estos problemas, Bing ha capacitado SLM, que, según afirma, son 100 veces más rápidos que los LLM.

El anuncio dice:

“Los LLM pueden ser costosos y lentos. Para mejorar la eficiencia, entrenamos modelos SLM (una mejora del rendimiento de ~100 veces respecto a LLM), que procesan y comprenden las consultas de búsqueda con mayor precisión”.

Bing también utiliza NVIDIA TensorRT-LLM para mejorar el funcionamiento de los SLM.

TensorRT-LLM es una herramienta que ayuda a reducir el tiempo y el costo de ejecutar modelos grandes en GPU NVIDIA.

Impacto en la “búsqueda profunda”

Según un informe técnico de Microsoft, la integración de la tecnología TensorRT-LLM de Nvidia ha mejorado la función de “Búsqueda profunda” de la empresa.

Deep Search aprovecha los SLM en tiempo real para proporcionar resultados web relevantes.

Antes de la optimización, el modelo de transformador original de Bing tenía una latencia percentil 95 de 4,76 segundos por lote (20 consultas) y un rendimiento de 4,2 consultas por segundo por instancia.

Con TensorRT-LLM, la latencia se redujo a 3,03 segundos por lote y el rendimiento aumentó a 6,6 consultas por segundo por instancia.

Esto representa un 36% reducción de la latencia y 57% disminución de los costos operativos.

La empresa afirma:

“… nuestro producto se basa en proporcionar los mejores resultados y no comprometeremos la calidad por la velocidad. Aquí es donde entra en juego TensorRT-LLM, que reduce el tiempo de inferencia del modelo y, en consecuencia, la latencia de la experiencia de un extremo a otro sin sacrificar la calidad de los resultados”.

Beneficios para los usuarios de Bing

Esta actualización aporta varios beneficios potenciales a los usuarios de Bing:

  • Resultados de búsqueda más rápidos con inferencia optimizada y tiempos de respuesta más rápidos
  • Precisión mejorada a través de capacidades mejoradas de los modelos SLM, que ofrecen resultados más contextualizados
  • Eficiencia de costos, lo que permite a Bing invertir en más innovaciones y mejoras.

Por qué es importante el cambio de Bing a los modelos LLM/SLM

El cambio de Bing a modelos LLM/SLM y la optimización de TensorRT podrían afectar el futuro de la búsqueda.

A medida que los usuarios hacen preguntas más complejas, los motores de búsqueda necesitan comprender mejor y ofrecer resultados relevantes rápidamente. Bing pretende hacerlo utilizando modelos de lenguaje más pequeños y técnicas de optimización avanzadas.

Si bien tendremos que esperar y ver el impacto total, la medida de Bing prepara el escenario para un nuevo capítulo en la búsqueda.


Imagen de portada: mindea/Shutterstock

Con información de Search Engine Journal.

Leer la nota Completa > Actualización de búsqueda de Bing: resultados más rápidos y precisos

LEAVE A REPLY

Please enter your comment!
Please enter your name here