Cuando hablamos de recuperación de información, como profesionales de SEO, tendemos a centrarnos en gran medida en la etapa de recopilación de información: el rastreo.
Durante esta fase, un motor de búsqueda descubriría y rastrearía las URL a las que tiene acceso (el volumen y la amplitud dependen de otros factores a los que coloquialmente nos referimos como presupuesto de rastreo).
La fase de rastreo no es algo en lo que nos vamos a centrar en este artículo, ni voy a profundizar en cómo funciona la indexación.
Si desea obtener más información sobre el rastreo y la indexación, puede hacerlo aquí.
En este artículo, cubriré algunos de los conceptos básicos de la recuperación de información que, una vez entendidos, podrían ayudarlo a optimizar mejor las páginas web para el rendimiento de clasificación.
También puede ayudarlo a analizar mejor los cambios de algoritmo y las actualizaciones de la página de resultados del motor de búsqueda (SERP).
Para comprender y apreciar cómo los motores de búsqueda modernos procesan la recuperación de información práctica, debemos comprender la historia de la recuperación de información en Internet, en particular, cómo se relaciona con los procesos de los motores de búsqueda.
Con respecto a la recuperación de información digital y las tecnologías fundamentales adoptadas por los motores de búsqueda, podemos remontarnos a la década de 1960 y la Universidad de Cornell, donde Gerard Salton dirigió un equipo que desarrolló el Sistema de recuperación de información SMART.
A Salton se le atribuye el desarrollo y el uso de modelos de espacio vectorial para la recuperación de información.
Modelos de espacio vectorial
Los modelos de espacio vectorial se aceptan en la comunidad de ciencia de datos como un mecanismo clave en la forma en que los motores de búsqueda “buscan” y las plataformas como Amazon brindan recomendaciones.
Este método permite que un procesador, como Google, compare diferentes documentos con consultas cuando las consultas se representan como vectores.
Google se ha referido a esto en sus documentos como búsqueda de similitud vectorial, o “búsqueda del vecino más cercano”, definida por Donald Knuth en 1973.
En una búsqueda de palabras clave tradicional, el procesador usaría palabras clave, etiquetas, etiquetas, etc., dentro de la base de datos para encontrar contenido relevante.
Esto es bastante limitado, ya que reduce el campo de búsqueda dentro de la base de datos porque la respuesta es un sí o un no binario. Este método también se puede limitar cuando se procesan sinónimos y entidades relacionadas.
Cuanto más cerca están las dos entidades en términos de proximidad, menos espacio hay entre los vectores y mayor similitud/precisión se considera que tienen.
Para combatir esto y proporcionar resultados para consultas con múltiples interpretaciones comunes, Google usa la similitud de vectores para unir varios significados, sinónimos y entidades.
Un buen ejemplo de esto es cuando buscas mi nombre en Google.
A Google, [dan taylor] puede ser:
- Yo, la persona SEO.
- Un periodista deportivo británico.
- Un reportero de noticias locales.
- El teniente Dan Taylor de Forrest Gump.
- Un fotógrafo.
- Un fabricante de modelos.
Usando la búsqueda tradicional de palabras clave con criterios binarios de sí/no, no obtendría esta distribución de resultados en la primera página.
Con la búsqueda de vectores, el procesador puede producir una página de resultados de búsqueda basada en la similitud y las relaciones entre diferentes entidades y vectores dentro de la base de datos.
Puede leer el blog de la compañía aquí para obtener más información sobre cómo Google usa esto en varios productos.
Coincidencia de similitud
Al comparar documentos de esta manera, es probable que los motores de búsqueda utilicen una combinación de ponderación de términos de consulta (QTW) y el coeficiente de similitud.
QTW aplica una ponderación a términos específicos en la consulta, que luego se usa para calcular un coeficiente de similitud usando el modelo de espacio vectorial y se calcula usando el coeficiente del coseno.
La similitud del coseno mide la similitud entre dos vectores y, en el análisis de texto, se utiliza para medir la similitud del documento.
Este es un mecanismo probable en la forma en que los motores de búsqueda determinan el contenido duplicado y las propuestas de valor en un sitio web.
El coseno se mide entre -1 y 1.
Tradicionalmente, en un gráfico de similitud de coseno, se medirá entre 0 y 1, siendo 0 la máxima disimilitud u ortogonal, y 1 la máxima similitud.
El papel de un índice
En SEO, hablamos mucho sobre el índice, la indexación y los problemas de indexación, pero no hablamos activamente sobre el papel del índice en los motores de búsqueda.
El propósito de un índice es almacenar información, lo que Google hace a través de fragmentos y sistemas de indexación por niveles, para actuar como un depósito de datos.
Esto se debe a que es poco realista, poco rentable y una mala experiencia para el usuario final acceder (rastrear) páginas web de forma remota, analizar su contenido, calificarlo y luego presentar un SERP en tiempo real.
Por lo general, un índice de motor de búsqueda moderno no contendría una copia completa de cada documento, sino más bien una base de datos de puntos clave y datos que se han tokenizado. El documento en sí vivirá en un caché diferente.
Si bien no sabemos exactamente los procesos por los que pasarán los motores de búsqueda como Google como parte de su sistema de recuperación de información, es probable que tengan etapas de:
- Análisis estructural – Formato y estructura del texto, listas, tablas, imágenes, etc.
- derivación – Reducir variaciones de una palabra a su raíz. Por ejemplo, “buscado” y “buscando” se reducirían a “buscar”.
- Análisis léxico – Conversión del documento en una lista de palabras y luego análisis para identificar factores importantes como fechas, autores y frecuencia de términos. Para tener en cuenta, esto no es lo mismo que TF*IDF.
También esperamos que durante esta fase, se tomen en cuenta otras consideraciones y puntos de datos, como backlinks, tipo de fuente, si el documento cumple o no con el umbral de calidad, enlaces internos, contenido principal/contenido de apoyo, etc.
Precisión y posrecuperación
En 2016, Paul Haahr brindó una gran perspectiva sobre cómo Google mide el “éxito” de su proceso y también cómo aplica los ajustes posteriores a la recuperación.
Puedes ver su presentación aquí.
En la mayoría de los sistemas de recuperación de información, hay dos medidas principales de qué tan exitoso es el sistema para devolver un buen conjunto de resultados.
Estos son la precisión y la recuperación.
Precisión
El número de documentos devueltos que son relevantes frente al número total de documentos devueltos.
Muchos sitios web han visto caídas en la cantidad total de palabras clave para las que se clasifican en los últimos meses (como palabras clave extrañas y de vanguardia para las que probablemente no tenían derecho a clasificar). Podemos especular que los motores de búsqueda están refinando el sistema de recuperación de información para una mayor precisión.
Recuerdo
El número de documentos relevantes versus el número total de documentos relevantes devueltos.
Los motores de búsqueda se orientan más hacia la precisión que al recuerdo, ya que la precisión conduce a mejores páginas de resultados de búsqueda y una mayor satisfacción del usuario. También requiere menos uso del sistema para devolver más documentos y procesar más datos de los necesarios.
Conclusión
La práctica de la recuperación de información puede ser compleja debido a las diferentes fórmulas y mecanismos utilizados.
Por ejemplo:
Como no sabemos ni entendemos completamente cómo funciona este proceso en los motores de búsqueda, debemos centrarnos más en los conceptos básicos y las pautas proporcionadas en lugar de tratar de jugar con métricas como TF*IDF que pueden usarse o no (y varían en cómo pesan en el resultado general).
Más recursos:
Imagen destacada: BRO.vector/Shutterstock
Con información de Search Engine Journal.
Leer la nota Completa > Recuperación de información: una introducción para SEO