El concepto de compresibilidad como señal de calidad no es muy conocido, pero los SEO deberían ser conscientes de ello. Los motores de búsqueda pueden utilizar la compresibilidad de la página web para identificar páginas duplicadas, páginas de entrada con contenido similar y páginas con palabras clave repetitivas, lo que lo convierte en un conocimiento útil para SEO.

Aunque el siguiente artículo de investigación demuestra un uso exitoso de funciones en la página para detectar spam, la falta deliberada de transparencia por parte de los motores de búsqueda hace que sea difícil decir con certeza si los motores de búsqueda están aplicando esta o técnicas similares.

¿Qué es la compresibilidad?

En informática, la compresibilidad se refiere a cuánto se puede reducir el tamaño de un archivo (datos) conservando información esencial, generalmente para maximizar el espacio de almacenamiento o para permitir que se transmitan más datos a través de Internet.

TL/DR de compresión

La compresión reemplaza palabras y frases repetidas con referencias más cortas, lo que reduce el tamaño del archivo en márgenes significativos. Los motores de búsqueda suelen comprimir las páginas web indexadas para maximizar el espacio de almacenamiento, reducir el ancho de banda y mejorar la velocidad de recuperación, entre otras razones.

Esta es una explicación simplificada de cómo funciona la compresión:

  • Identificar patrones:
    Un algoritmo de compresión escanea el texto para encontrar palabras, patrones y frases repetidas.
  • Los códigos más cortos ocupan menos espacio:
    Los códigos y símbolos utilizan menos espacio de almacenamiento que las palabras y frases originales, lo que da como resultado un tamaño de archivo más pequeño.
  • Las referencias más breves utilizan menos bits:
    El “código” que esencialmente simboliza las palabras y frases reemplazadas utiliza menos datos que los originales.

Un efecto adicional del uso de la compresión es que también se puede utilizar para identificar páginas duplicadas, páginas de entrada con contenido similar y páginas con palabras clave repetitivas.

Trabajo de investigación sobre la detección de spam

Este artículo de investigación es importante porque fue escrito por distinguidos científicos informáticos conocidos por sus avances en inteligencia artificial, computación distribuida, recuperación de información y otros campos.

Marc Najörk

Uno de los coautores del artículo de investigación es Marc Najork, un destacado científico investigador que actualmente ostenta el título de Investigador Científico Distinguido en Google DeepMind. Es coautor de los artículos para TW-BERT, ha contribuido con investigaciones para aumentar la precisión del uso de comentarios implícitos de los usuarios, como clics, y trabajó en la creación de una recuperación de información mejorada basada en IA (DSI++: Actualización de la memoria del transformador con nuevos documentos), entre otros. muchos otros avances importantes en la recuperación de información.

Dennis Fetterly

Otro de los coautores es Dennis Fetterly, actualmente ingeniero de software en Google. Figura como co-inventor de una patente para un algoritmo de clasificación que utiliza enlaces y es conocido por su investigación en informática distribuida y recuperación de información.

Estos son sólo dos de los distinguidos investigadores que figuran como coautores del artículo de investigación de Microsoft de 2006 sobre la identificación de spam a través de funciones de contenido en la página. Entre las diversas características del contenido de la página que analiza el trabajo de investigación se encuentra la compresibilidad, que descubrieron que puede usarse como clasificador para indicar que una página web es spam.

Detección de páginas web no deseadas mediante análisis de contenido

Aunque el artículo de investigación fue escrito en 2006, sus hallazgos siguen siendo relevantes en la actualidad.

Entonces, como ahora, la gente intentaba clasificar cientos o miles de páginas web basadas en la ubicación que eran esencialmente contenido duplicado aparte de los nombres de ciudades, regiones o estados. Entonces, como ahora, los SEO a menudo creaban páginas web para motores de búsqueda repitiendo excesivamente palabras clave dentro de los títulos, meta descripciones, encabezados, texto de anclaje interno y dentro del contenido para mejorar las clasificaciones.

La sección 4.6 del trabajo de investigación explica:

“Algunos motores de búsqueda dan mayor peso a las páginas que contienen las palabras clave de la consulta varias veces. Por ejemplo, para un término de consulta determinado, una página que lo contiene diez veces puede tener una clasificación más alta que una página que lo contiene solo una vez. Para aprovechar dichos motores, algunas páginas de spam replican su contenido varias veces en un intento de obtener una clasificación más alta”.

El artículo de investigación explica que los motores de búsqueda comprimen las páginas web y utilizan la versión comprimida para hacer referencia a la página web original. Señalan que una cantidad excesiva de palabras redundantes da como resultado un mayor nivel de compresibilidad. Entonces se propusieron probar si existe una correlación entre un alto nivel de compresibilidad y spam.

Ellos escriben:

“Nuestro enfoque en esta sección para localizar contenido redundante dentro de una página es comprimir la página; Para ahorrar espacio y tiempo en disco, los motores de búsqueda a menudo comprimen las páginas web después de indexarlas, pero antes de agregarlas a la caché de páginas.

…Medimos la redundancia de las páginas web por la relación de compresión, el tamaño de la página sin comprimir dividido por el tamaño de la página comprimida. Usamos GZIP… para comprimir páginas, un algoritmo de compresión rápido y eficaz”.

La alta compresibilidad se correlaciona con el spam

Los resultados de la investigación mostraron que las páginas web con al menos una relación de compresión de 4,0 tendían a ser páginas web de baja calidad, spam. Sin embargo, las tasas más altas de compresibilidad se volvieron menos consistentes porque había menos puntos de datos, lo que dificultaba su interpretación.

Figura 9: Prevalencia de spam en relación con la compresibilidad de la página.

Los investigadores concluyeron:

“El 70% de todas las páginas muestreadas con una relación de compresión de al menos 4,0 se consideraron spam”.

Pero también descubrieron que el uso de la relación de compresión por sí solo todavía generaba falsos positivos, donde las páginas que no eran spam se identificaban incorrectamente como spam:

“La heurística de relación de compresión descrita en la Sección 4.6 obtuvo mejores resultados, identificando correctamente 660 (27,9%) de las páginas de spam de nuestra colección, mientras que identificó erróneamente 2.068 (12,0%) de todas las páginas juzgadas.

Utilizando todas las características antes mencionadas, la precisión de la clasificación después del proceso de validación cruzada diez veces es alentadora:

El 95,4% de nuestras páginas juzgadas se clasificaron correctamente, mientras que el 4,6% se clasificaron incorrectamente.

Más concretamente, para la clase 1 de spam, 940 de las 2.364 páginas se clasificaron correctamente. Para la clase no spam, 14.440 de las 14.804 páginas se clasificaron correctamente. En consecuencia, 788 páginas fueron clasificadas incorrectamente”.

La siguiente sección describe un descubrimiento interesante sobre cómo aumentar la precisión del uso de señales en la página para identificar spam.

Información sobre las clasificaciones de calidad

El artículo de investigación examinó múltiples señales en la página, incluida la compresibilidad. Descubrieron que cada señal individual (clasificador) podía encontrar algo de spam, pero que confiar en cualquier señal por sí sola daba como resultado que se marcaran páginas que no eran spam, lo que comúnmente se conoce como falso positivo.

Los investigadores hicieron un descubrimiento importante que todos los interesados ​​en SEO deberían saber: el uso de múltiples clasificadores aumentó la precisión de la detección de spam y disminuyó la probabilidad de falsos positivos. Igual de importante es que la señal de compresibilidad sólo identifica un tipo de spam, pero no toda la gama de spam.

La conclusión es que la compresibilidad es una buena manera de identificar un tipo de spam, pero hay otros tipos de spam que no se detectan con esta señal. Otros tipos de spam no fueron detectados con la señal de compresibilidad.

Esta es la parte que todo SEO y editor debe tener en cuenta:

“En la sección anterior, presentamos una serie de heurísticas para analizar páginas web spam. Es decir, medimos varias características de las páginas web y encontramos rangos de esas características que se correlacionaban con que una página fuera spam. Sin embargo, cuando se utiliza individualmente, ninguna técnica descubre la mayor parte del spam en nuestro conjunto de datos sin marcar muchas páginas que no son spam como spam.

Por ejemplo, considerando la heurística de índice de compresión descrita en la Sección 4.6, uno de nuestros métodos más prometedores, la probabilidad promedio de spam para índices de 4.2 y superiores es del 72 %. Pero sólo alrededor del 1,5% de todas las páginas se encuentran en este rango. Esta cifra está muy por debajo del 13,8% de páginas de spam que identificamos en nuestro conjunto de datos”.

Entonces, aunque la compresibilidad fue una de las mejores señales para identificar spam, aún no pudo descubrir toda la gama de spam dentro del conjunto de datos que los investigadores utilizaron para probar las señales.

Combinando múltiples señales

Los resultados anteriores indicaron que las señales individuales de baja calidad son menos precisas. Entonces probaron usando múltiples señales. Lo que descubrieron fue que la combinación de múltiples señales en la página para detectar spam daba como resultado una mejor tasa de precisión con menos páginas clasificadas erróneamente como spam.

Los investigadores explicaron que probaron el uso de múltiples señales:

“Una forma de combinar nuestros métodos heurísticos es considerar el problema de detección de spam como un problema de clasificación. En este caso, queremos crear un modelo de clasificación (o clasificador) que, dada una página web, utilizará las características de la página de forma conjunta para (esperamos que correctamente) clasificarla en una de dos clases: spam y no spam. .”

Estas son sus conclusiones sobre el uso de múltiples señales:

“Hemos estudiado varios aspectos del spam basado en contenido en la web utilizando un conjunto de datos del mundo real del rastreador MSNSearch. Hemos presentado una serie de métodos heurísticos para detectar spam basado en contenido. Algunos de nuestros métodos de detección de spam son más efectivos que otros; sin embargo, cuando se usan de forma aislada, es posible que nuestros métodos no identifiquen todas las páginas de spam. Por este motivo, combinamos nuestros métodos de detección de spam para crear un clasificador C4.5 de alta precisión. Nuestro clasificador puede identificar correctamente el 86,2% de todas las páginas de spam, al tiempo que marca muy pocas páginas legítimas como spam”.

Información clave:

Identificar erróneamente “muy pocas páginas legítimas como spam” fue un avance significativo. La idea importante que todos los involucrados con el SEO deberían extraer de esto es que una señal por sí sola puede generar falsos positivos. El uso de múltiples señales aumenta la precisión.

Lo que esto significa es que las pruebas SEO de clasificación aislada o señales de calidad no producirán resultados confiables en los que se pueda confiar para tomar decisiones estratégicas o comerciales.

Comidas para llevar

No sabemos con certeza si los motores de búsqueda utilizan la compresibilidad, pero es una señal fácil de usar que, combinada con otras, podría usarse para detectar tipos simples de spam, como miles de páginas de entrada con nombres de ciudades con contenido similar. Sin embargo, incluso si los motores de búsqueda no utilizan esta señal, demuestra lo fácil que es detectar ese tipo de manipulación en los motores de búsqueda y que es algo que los motores de búsqueda son muy capaces de manejar hoy en día.

Estos son los puntos clave de este artículo a tener en cuenta:

  • Las páginas de entrada con contenido duplicado son fáciles de detectar porque se comprimen en una proporción mayor que las páginas web normales.
  • Los grupos de páginas web con un índice de compresión superior a 4,0 eran predominantemente spam.
  • Las señales de calidad negativas utilizadas por sí mismas para detectar spam pueden generar falsos positivos.
  • En esta prueba en particular, descubrieron que las señales de calidad negativa en la página solo detectan tipos específicos de spam.
  • Cuando se usa sola, la señal de compresibilidad solo detecta spam de tipo redundante, no detecta otras formas de spam y genera falsos positivos.
  • La combinación de señales de calidad mejora la precisión de la detección de spam y reduce los falsos positivos.
  • Los motores de búsqueda actuales tienen una mayor precisión en la detección de spam gracias al uso de IA como Spam Brain.

Lea el artículo de investigación, que está vinculado desde la página de Google Scholar de Marc Najork:

Detección de páginas web spam mediante análisis de contenido

Imagen destacada de Shutterstock/pathdoc

Con información de Search Engine Journal.

Leer la nota Completa > Cómo se puede utilizar la compresión para detectar páginas de baja calidad

LEAVE A REPLY

Please enter your comment!
Please enter your name here