El presupuesto de rastreo es un concepto de SEO vital para sitios web grandes con millones de páginas o sitios web medianos con unos pocos miles de páginas que cambian a diario.

Un ejemplo de un sitio web con millones de páginas sería eBay.com, y los sitios web con decenas de miles de páginas que se actualizan con frecuencia serían sitios web de reseñas y calificaciones de usuarios similares a Gamespot.com.

Hay tantas tareas y cuestiones que un experto en SEO debe considerar que el rastreo a menudo se deja en un segundo plano.

Pero el presupuesto de rastreo puede y debe optimizarse.

En este artículo aprenderás:

  • Cómo mejorar su presupuesto de rastreo a lo largo del camino.
  • Repase los cambios en el presupuesto rastreado como concepto en los últimos años.

(Nota: Si tiene un sitio web con solo unos pocos cientos de páginas y las páginas no están indexadas, le recomendamos leer nuestro artículo sobre problemas comunes que causan problemas de indexación, ya que ciertamente no se debe al presupuesto de rastreo).

¿Qué es el presupuesto de rastreo?

El presupuesto de rastreo se refiere al número de páginas que los rastreadores de los motores de búsqueda (es decir, arañas y robots) visitan en un período de tiempo determinado.

Hay ciertas consideraciones que entran en el presupuesto de rastreo, como un equilibrio tentativo entre los intentos del robot de Google de no sobrecargar su servidor y el deseo general de Google de rastrear su dominio.

La optimización del presupuesto de rastreo es una serie de pasos que puede seguir para aumentar la eficiencia y la velocidad a la que los robots de los motores de búsqueda visitan sus páginas.

¿Por qué es importante la optimización del presupuesto de rastreo?

Rastrear es el primer paso para aparecer en la búsqueda. Sin ser rastreadas, las páginas nuevas y las actualizaciones de páginas no se agregarán a los índices de los motores de búsqueda.

Cuanto más a menudo los rastreadores visiten sus páginas, más rápidamente aparecerán actualizaciones y nuevas páginas en el índice. En consecuencia, sus esfuerzos de optimización tardarán menos en afianzarse y comenzar a afectar su clasificación.

El índice de Google contiene cientos de miles de millones de páginas y crece cada día. A los motores de búsqueda les cuesta rastrear cada URL y, con el creciente número de sitios web, quieren reducir los costos computacionales y de almacenamiento reduciendo la tasa de rastreo y la indexación de las URL.

También existe una urgencia creciente de reducir las emisiones de carbono debido al cambio climático, y Google tiene una estrategia a largo plazo para mejorar la sostenibilidad y reducir las emisiones de carbono.

Estas prioridades podrían dificultar el rastreo eficaz de los sitios web en el futuro. Si bien el presupuesto de rastreo no es algo de lo que deba preocuparse en sitios web pequeños con unos pocos cientos de páginas, la gestión de recursos se convierte en un tema importante para sitios web masivos. Optimizar el presupuesto de rastreo significa que Google rastree su sitio web gastando la menor cantidad de recursos posible.

Entonces, analicemos cómo puede optimizar su presupuesto de rastreo en el mundo actual.

1. No permitir el rastreo de URL de acción en Robots.Txt

Puede que te sorprendas, pero Google ha confirmado que no permitir URL no afectará su presupuesto de rastreo. Esto significa Google seguirá rastreando su sitio web al mismo ritmo. Entonces, ¿por qué lo discutimos aquí?

Bueno, si no permites URL que no son importantes, básicamente le dices a Google que rastree partes útiles de tu sitio web a un ritmo mayor.

Por ejemplo, si su sitio web tiene una función de búsqueda interna con parámetros de consulta como /?q=google, Google rastreará estas URL si están vinculadas desde algún lugar.

De manera similar, en un sitio de comercio electrónico, es posible que tenga filtros de facetas que generen URL como /?color=red&size=s.

Estos parámetros de cadena de consulta pueden crear un número infinito de combinaciones de URL únicas que Google puede intentar rastrear.

Básicamente, esas URL no tienen contenido único y solo filtran los datos que tienes, lo cual es excelente para la experiencia del usuario, pero no para el robot de Google.

Permitir que Google rastree estas URL desperdicia el presupuesto de rastreo y afecta la capacidad de rastreo general de su sitio web. Al bloquearlos mediante reglas de robots.txt, Google centrará sus esfuerzos de rastreo en páginas más útiles de su sitio.

A continuación se explica cómo bloquear la búsqueda interna, las facetas o cualquier URL que contenga cadenas de consulta a través de robots.txt:

Disallow: *?*s=*
Disallow: *?*color=*
Disallow: *?*size=*

Cada regla no permite ninguna URL que contenga el parámetro de consulta respectivo, independientemente de otros parámetros que puedan estar presentes.

  • * (asterisco) coincide con cualquier secuencia de caracteres (incluido ninguno).
  • ? (Signo de interrogación): Indica el comienzo de una cadena de consulta.
  • =*: Coincide con el signo = y cualquier carácter posterior.

Este enfoque ayuda a evitar la redundancia y garantiza que los motores de búsqueda bloqueen el rastreo de las URL con estos parámetros de consulta específicos.

Sin embargo, tenga en cuenta que este método garantiza que cualquier URL que contenga los caracteres indicados no se permitirá, sin importar dónde aparezcan los caracteres. Esto puede provocar rechazos no deseados. Por ejemplo, los parámetros de consulta que contienen un solo carácter no permitirán ninguna URL que contenga ese carácter, independientemente de dónde aparezca. Si no permite ‘s’, las URL que contengan ‘/?pages=2’ se bloquearán porque *?*s= también coincide con ‘?pages=’. Si desea no permitir URL con un solo carácter específico, puede usar una combinación de reglas:

Disallow: *?s=*
Disallow: *&s=*

El cambio crítico es que no hay un asterisco ‘*’ entre el ‘?’ y caracteres ‘s’. Este método le permite no permitir parámetros ‘s’ específicos y exactos en las URL, pero deberá agregar cada variación individualmente.

Aplique estas reglas a sus casos de uso específicos para cualquier URL que no proporcione contenido único. Por ejemplo, en caso de que tenga botones de lista de deseos con URL “?add_to_wishlist=1”, debe prohibirlos según la regla:

Disallow: /*?*add_to_wishlist=*

Este es un primer paso natural y el más importante recomendado por Google.

Un ejemplo a continuación muestra cómo el bloqueo de esos parámetros ayudó a reducir el rastreo de páginas con cadenas de consulta. Google estaba intentando rastrear decenas de miles de URL con diferentes valores de parámetros que no tenían sentido, lo que conducía a páginas inexistentes.

Tasa de rastreo reducida de URL con parámetros después del bloqueo mediante robots.txt.

Sin embargo, a veces las URL no permitidas aún pueden ser rastreadas e indexadas por los motores de búsqueda. Esto puede parecer extraño, pero generalmente no es motivo de alarma. Por lo general, significa que otros sitios web enlazan a esas URL.

La indexación se disparó porque Google indexó las URL de búsqueda interna después de que fueron bloqueadas mediante robots.txt.La indexación se disparó porque Google indexó las URL de búsqueda interna después de que fueron bloqueadas mediante robots.txt.

Google confirmó que la actividad de rastreo disminuirá con el tiempo en estos casos.

Comentario de Google en redditComentario de Google en Reddit, julio de 2024

Otro beneficio importante de bloquear estas URL mediante robots.txt es ahorrar recursos del servidor. Cuando una URL contiene parámetros que indican la presencia de contenido dinámico, las solicitudes irán al servidor en lugar de a la caché. Esto aumenta la carga en su servidor con cada página rastreada.

Recuerde no utilizar la “metaetiqueta noindex” para bloquear, ya que el robot de Google tiene que realizar una solicitud para ver la metaetiqueta o el código de respuesta HTTP, lo que desperdicia el presupuesto de rastreo.

1.2. No permitir URL de recursos sin importancia en Robots.txt

Además de no permitir las URL de acción, es posible que desees no permitir archivos JavaScript que no formen parte del diseño o la representación del sitio web.

Por ejemplo, si tiene archivos JavaScript responsables de abrir imágenes en una ventana emergente cuando los usuarios hacen clic, puede no permitirlos en robots.txt para que Google no desperdicie presupuesto rastreándolos.

A continuación se muestra un ejemplo de la regla de no permitir un archivo JavaScript:

Disallow: /assets/js/popup.js

Sin embargo, nunca debes rechazar los recursos que forman parte del renderizado. Por ejemplo, si su contenido se carga dinámicamente a través de JavaScript, Google necesita rastrear los archivos JS para indexar el contenido que cargan.

Otro ejemplo son los puntos finales de la API REST para el envío de formularios. Supongamos que tiene un formulario con la URL de acción “/rest-api/form-submissions/”.

Potencialmente, Google puede rastrearlos. Esas URL no están relacionadas de ninguna manera con la representación y sería una buena práctica bloquearlas.

Disallow: /rest-api/form-submissions/

Sin embargo, los CMS sin cabeza suelen utilizar API REST para cargar contenido de forma dinámica, así que asegúrese de no bloquear esos puntos finales.

En pocas palabras, mira todo lo que no esté relacionado con el renderizado y bloquéalo.

2. Cuidado con las cadenas de redireccionamiento

Las cadenas de redireccionamiento ocurren cuando varias URL redireccionan a otras URL que también redireccionan. Si esto continúa por mucho tiempo, los rastreadores pueden abandonar la cadena antes de llegar al destino final.

La URL 1 redirige a la URL 2, que a su vez dirige a la URL 3, y así sucesivamente. Las cadenas también pueden tomar la forma de bucles infinitos cuando las URL se redireccionan entre sí.

Evitarlos es un enfoque de sentido común para la salud del sitio web.

Idealmente, podrías evitar tener incluso una única cadena de redireccionamiento en todo tu dominio.

Pero puede ser una tarea imposible para un sitio web grande: es probable que aparezcan redireccionamientos 301 y 302, y no puedes corregir los redireccionamientos de los vínculos de retroceso entrantes simplemente porque no tienes control sobre los sitios web externos.

Es posible que una o dos redirecciones aquí y allá no duelan mucho, pero las cadenas y bucles largos pueden resultar problemáticos.

Para solucionar problemas de cadenas de redireccionamiento, puede utilizar una de las herramientas de SEO como Screaming Frog, Lumar u Oncrawl para encontrar cadenas.

Cuando descubre una cadena, la mejor manera de solucionarla es eliminar todas las URL entre la primera página y la página final. Si tiene una cadena que pasa por siete páginas, redirija la primera URL directamente a la séptima.

Otra excelente manera de reducir las cadenas de redireccionamiento es reemplazar las URL internas que redireccionan con destinos finales en su CMS.

Dependiendo de su CMS, es posible que existan diferentes soluciones; por ejemplo, puedes utilizar este complemento para WordPress. Si tiene un CMS diferente, es posible que necesite utilizar una solución personalizada o pedirle a su equipo de desarrollo que lo haga.

3. Utilice la representación del lado del servidor (HTML) siempre que sea posible

Ahora, si hablamos de Google, su rastreador utiliza la última versión de Chrome y puede ver perfectamente el contenido cargado mediante JavaScript.

Pero pensemos críticamente. ¿Qué significa eso? El robot de Google rastrea una página y recursos como JavaScript luego gasta más recursos computacionales para representarlos.

Recuerde, los costos computacionales son importantes para Google y quiere reducirlos tanto como sea posible.

Entonces, ¿por qué renderizar contenido a través de JavaScript (del lado del cliente) y agregar un costo computacional adicional para que Google rastree sus páginas?

Por eso, siempre que sea posible, debes ceñirte al HTML.

De esa manera, no perjudicará sus posibilidades con ningún rastreador.

4. Mejorar la velocidad de la página

Como comentamos anteriormente, el robot de Google rastrea y representa páginas con JavaScript, lo que significa que si gasta menos recursos para representar páginas web, más fácil le resultará rastrear, lo que depende de qué tan bien optimizada esté la velocidad de su sitio web.

Google dice:

El rastreo de Google está limitado por el ancho de banda, el tiempo y la disponibilidad de las instancias del robot de Google. Si su servidor responde a las solicitudes más rápido, es posible que podamos rastrear más páginas de su sitio.

Por lo tanto, utilizar la representación del lado del servidor ya es un gran paso para mejorar la velocidad de la página, pero debe asegurarse de que las métricas de Core Web Vital estén optimizadas, especialmente el tiempo de respuesta del servidor.

5. Cuida tus enlaces internos

Google rastrea las URL que están en la página y siempre tenga en cuenta que los rastreadores cuentan las diferentes URL como páginas separadas.

Si tiene un sitio web con la versión ‘www’, asegúrese de que sus URL internas, especialmente en la navegación, apunten a la versión canónica, es decir, con la versión ‘www’ y viceversa.

Otro error común es faltar una barra diagonal. Si sus URL tienen una barra diagonal al final, asegúrese de que sus URL internas también la tengan.

De lo contrario, los redireccionamientos innecesarios, por ejemplo, “https://www.example.com/sample-page” a “https://www.example.com/sample-page/” darán lugar a dos rastreos por URL.

Otro aspecto importante es evitar páginas de enlaces internos rotas, que pueden consumir su presupuesto de rastreo y sus páginas 404 blandas.

Y si eso no fuera suficientemente malo, ¡también dañan tu experiencia de usuario!

En este caso, nuevamente, soy partidario de utilizar una herramienta de auditoría de sitios web.

WebSite Auditor, Screaming Frog, Lumar u Oncrawl y SE Ranking son ejemplos de excelentes herramientas para la auditoría de un sitio web.

6. Actualice su mapa del sitio

Una vez más, cuidar su mapa de sitio XML es realmente beneficioso para todos.

A los bots les resultará mucho mejor y más fácil comprender adónde conducen los enlaces internos.

Utilice sólo las URL que sean canónicas para su…

Con información de Search Engine Journal.

Leer la nota Completa > 9 consejos para optimizar el presupuesto de rastreo para SEO

LEAVE A REPLY

Please enter your comment!
Please enter your name here