Google Search Central ha lanzado una nueva serie llamada “Rastreo de diciembre” para brindar información sobre cómo el robot de Google rastrea e indexa páginas web.

Google publicará un nuevo artículo cada semana de este mes explorando varios aspectos del proceso de rastreo que no se analizan con frecuencia pero que pueden afectar significativamente el rastreo de sitios web.

La primera publicación de la serie cubre los conceptos básicos del rastreo y arroja luz sobre detalles esenciales aunque menos conocidos sobre cómo el robot de Google maneja los recursos de la página y administra los presupuestos de rastreo.

Conceptos básicos de rastreo

Los sitios web actuales son complejos debido a JavaScript y CSS avanzados, lo que los hace más difíciles de rastrear que las páginas antiguas solo HTML. El robot de Google funciona como un navegador web pero con un horario diferente.

Cuando Googlebot visita una página web, primero descarga el HTML de la URL principal, que puede vincular a JavaScript, CSS, imágenes y vídeos. Luego, el servicio de renderizado web (WRS) de Google utiliza el robot de Google para descargar estos recursos y crear la vista de página final.

Estos son los pasos en orden:

  1. Descarga HTML inicial
  2. Procesamiento por parte del servicio de renderizado web
  3. Obtención de recursos
  4. Construcción de la página final

Gestión del presupuesto de rastreo

Rastrear recursos adicionales puede reducir el presupuesto de rastreo del sitio web principal. Para ayudar con esto, Google dice que “WRS intenta almacenar en caché todos los recursos (JavaScript y CSS) utilizados en las páginas que representa”.

Es importante tener en cuenta que el caché WRS dura hasta 30 días y no está influenciado por las reglas de almacenamiento en caché HTTP establecidas por los desarrolladores.

Esta estrategia de almacenamiento en caché ayuda a ahorrar el presupuesto de rastreo de un sitio.

Recomendaciones

Esta publicación ofrece a los propietarios de sitios consejos sobre cómo optimizar su presupuesto de rastreo:

  1. Reducir el uso de recursos: Utilice menos recursos para crear una buena experiencia de usuario. Esto ayuda a ahorrar presupuesto de rastreo al representar una página.
  2. Alojar recursos por separado: coloque recursos en un nombre de host diferente, como una CDN o un subdominio. Esto puede ayudar a alejar la carga del presupuesto de rastreo de su sitio principal.
  3. Utilice sabiamente los parámetros de eliminación de caché: Tenga cuidado con los parámetros de eliminación de caché. Cambiar las URL de los recursos puede hacer que Google vuelva a verificarlas, incluso si el contenido es el mismo. Esto puede desperdiciar su presupuesto de rastreo.

Además, Google advierte que bloquear el rastreo de recursos con robots.txt puede resultar arriesgado.

Si Google no puede acceder a un recurso necesario para renderizar, es posible que tenga problemas para obtener el contenido de la página y clasificarlo correctamente.

Herramientas de monitoreo

El equipo de Search Central dice que la mejor manera de ver qué recursos está rastreando el robot de Google es verificando los registros de acceso sin procesar de un sitio.

Puede identificar el robot de Google por su dirección IP utilizando los rangos publicados en la documentación para desarrolladores de Google.

Por qué esto importa

Esta publicación aclara tres puntos clave que afectan la forma en que Google encuentra y procesa el contenido de su sitio:

  • La administración de recursos afecta directamente su presupuesto de rastreo, por lo que alojar scripts y estilos en CDN puede ayudar a preservarlo.
  • Google almacena en caché los recursos durante 30 días, independientemente de la configuración de la caché HTTP, lo que ayuda a conservar su presupuesto de rastreo.
  • Bloquear recursos críticos en robots.txt puede resultar contraproducente al impedir que Google muestre correctamente sus páginas.

Comprender estos mecanismos ayuda a los SEO y a los desarrolladores a tomar mejores decisiones sobre el alojamiento y la accesibilidad de los recursos, opciones que afectan directamente la capacidad de Google para rastrear e indexar sus sitios.


Imagen de portada: ArtemisDiana/Shutterstock

Con información de Search Engine Journal.

Leer la nota Completa > Recursos de host en diferentes nombres de host para ahorrar presupuesto de rastreo

LEAVE A REPLY

Please enter your comment!
Please enter your name here