Google publicó una explicación que analiza cómo las redes de entrega de contenido (CDN) influyen en el rastreo de búsqueda y mejoran el SEO, pero también cómo a veces pueden causar problemas.

¿Qué es una CDN?

Una red de entrega de contenido (CDN) es un servicio que almacena en caché una página web y la muestra desde un centro de datos más cercano al navegador que solicita esa página web. Almacenar en caché una página web significa que la CDN crea una copia de una página web y la almacena. Esto acelera la entrega de páginas web porque ahora se sirve desde un servidor que está más cerca del visitante del sitio, lo que requiere menos “saltos” a través de Internet desde el servidor de origen al destino (el navegador del visitante del sitio).

Las CDN desbloquean más rastreo

Uno de los beneficios de utilizar una CDN es que Google aumenta automáticamente la velocidad de rastreo cuando detecta que las páginas web se sirven desde una CDN. Esto hace que el uso de una CDN sea atractivo para los SEO y los editores que están preocupados por aumentar la cantidad de páginas rastreadas por el robot de Google.

Normalmente, Googlebot reducirá la cantidad de rastreo desde un servidor si detecta que está alcanzando un cierto umbral que hace que el servidor se ralentice. El robot de Google reduce la cantidad de rastreo, lo que se denomina limitación. Ese umbral de “limitación” es mayor cuando se detecta una CDN, lo que da como resultado que se rastreen más páginas.

Algo que hay que entender acerca de servir páginas desde una CDN es que la primera vez que se sirven páginas, deben entregarse directamente desde su servidor. Google utiliza un ejemplo de un sitio con más de un millón de páginas web:

“Sin embargo, en el primer acceso a una URL, la caché de la CDN está “fría”, lo que significa que como nadie ha solicitado esa URL todavía, la CDN aún no almacenó en caché su contenido, por lo que su servidor de origen aún necesitará servir esa URL. al menos una vez para “calentar” el caché de la CDN. Esto también es muy similar a cómo funciona el almacenamiento en caché HTTP.

En resumen, incluso si su tienda web está respaldada por una CDN, su servidor deberá servir esos 1.000.007 de URL al menos una vez. Sólo después de ese servicio inicial su CDN podrá ayudarle con sus cachés. Esto supone una carga importante para su “presupuesto de rastreo” y la tasa de rastreo probablemente será alta durante unos días; téngalo en cuenta si planea lanzar muchas URL a la vez”.

Cuando se utilizan CDN contraproducentes para el rastreo

Google advierte que hay ocasiones en las que una CDN puede incluir al robot de Google en una lista negra y posteriormente bloquear el rastreo. Este efecto se describe como dos tipos de bloques:

1. bloques duros

2. Bloques blandos

Los bloqueos duros ocurren cuando una CDN responde que hay un error en el servidor. Una mala respuesta de error del servidor puede ser 500 (error interno del servidor), lo que indica que está ocurriendo un problema importante con el servidor. Otra mala respuesta de error del servidor es el 502 (puerta de enlace incorrecta). Ambas respuestas de error del servidor harán que el robot de Google reduzca la velocidad de rastreo. Las URL indexadas se guardan internamente en Google, pero las respuestas 500/502 continuas pueden hacer que Google eventualmente elimine las URL del índice de búsqueda.

La respuesta preferida es 503 (servicio no disponible), que indica un error temporal.

Otro bloque difícil a tener en cuenta es lo que Google llama “errores aleatorios”, que ocurre cuando un servidor envía un código de respuesta 200, lo que significa que la respuesta fue buena (aunque esté mostrando una página de error con esa respuesta 200). Google interpretará esas páginas de error como duplicadas y las eliminará del índice de búsqueda. Este es un gran problema porque puede llevar tiempo recuperarse de este tipo de error.

Puede ocurrir un bloqueo suave si la CDN muestra uno de esos “¿Eres humano?” ventanas emergentes (intersticiales de bot) al robot de Google. Los intersticiales de bots deben enviar una respuesta 503 del servidor para que Google sepa que se trata de un problema temporal.

La nueva documentación de Google explica:

“…cuando aparece el intersticial, eso es todo lo que ven, no su fantástico sitio. En el caso de estos intersticiales de verificación de bots, recomendamos encarecidamente enviar una señal clara en forma de código de estado HTTP 503 a clientes automatizados, como rastreadores, de que el contenido no está disponible temporalmente. Esto garantizará que el contenido no se elimine automáticamente del índice de Google”.

Depurar problemas con la herramienta de inspección de URL y los controles WAF

Google recomienda utilizar la herramienta de inspección de URL en Search Console para ver cómo la CDN sirve sus páginas web. Si el firewall CDN, llamado Firewall de aplicaciones web (WAF), está bloqueando el robot de Google por dirección IP, debería poder verificar las direcciones IP bloqueadas y compararlas con la lista oficial de IP de Google para ver si una de ellas está en la lista. .

Google ofrece los siguientes consejos de depuración a nivel de CDN:

“Si necesita que su sitio aparezca en los motores de búsqueda, le recomendamos encarecidamente comprobar si los rastreadores que le interesan pueden acceder a su sitio. Recuerde que las IP pueden terminar en una lista de bloqueo automáticamente, sin que usted lo sepa, por lo que revisar las listas de bloqueo de vez en cuando es una buena idea para el éxito de su sitio en la búsqueda y más allá. Si la lista de bloqueo es muy larga (similar a esta publicación de blog), intente buscar solo los primeros segmentos de los rangos de IP, por ejemplo, en lugar de buscar 192.168.0.101, puede buscar simplemente 192.168”.

Lea la documentación de Google para obtener más información:

Diciembre de rastreo: CDN y rastreo

Imagen destacada de Shutterstock/JHVEPhoto

Con información de Search Engine Journal.

Leer la nota Completa > Google explica cómo las CDN impactan el rastreo y el SEO

LEAVE A REPLY

Please enter your comment!
Please enter your name here