El defensor de los desarrolladores de Google, Martin Splitt, advierte a los propietarios de sitios web que tengan cuidado con el tráfico que parece provenir del robot de Google. Muchas solicitudes que se hacen pasar por Googlebot provienen en realidad de raspadores de terceros.
Compartió esto en el último episodio de la serie SEO Made Easy de Google, enfatizando que “no todos los que dicen ser Googlebot en realidad son Googlebot”.
¿Por qué esto importa?
Los rastreadores falsos pueden distorsionar los análisis, consumir recursos y dificultar la evaluación precisa del rendimiento de su sitio.
A continuación se explica cómo distinguir entre el tráfico legítimo del robot de Google y la actividad falsa del rastreador.
Métodos de verificación del robot de Google
Puede distinguir el tráfico real de Googlebot de los rastreadores falsos observando los patrones de tráfico generales en lugar de las solicitudes inusuales.
El tráfico real de Googlebot tiende a tener una frecuencia, un momento y un comportamiento de solicitud consistentes.
Si sospecha de actividad falsa del robot de Google, Splitt recomienda utilizar las siguientes herramientas de Google para verificarla:
Herramienta de inspección de URL (Search Console)
- Encontrar contenido específico en el HTML renderizado confirma que el robot de Google puede acceder correctamente a la página.
- Proporciona capacidad de prueba en vivo para verificar el estado de acceso actual.
Prueba de resultados enriquecidos
- Actúa como método de verificación alternativo para el acceso del robot de Google.
- Muestra cómo el robot de Google representa la página.
- Se puede utilizar incluso sin acceso a Search Console
Informe de estadísticas de rastreo
- Muestra datos detallados de respuesta del servidor específicamente de solicitudes verificadas del robot de Google.
- Ayuda a identificar patrones en el comportamiento legítimo del robot de Google
Hay una limitación clave que vale la pena señalar: estas herramientas verifican lo que ve y hace el robot de Google real, pero no identifican directamente a los imitadores en los registros de su servidor.
Para protegerse completamente contra los robots de Google falsos, deberá:
- Compare los registros del servidor con los rangos de IP oficiales de Google
- Implementar verificación de búsqueda de DNS inversa
- Utilice las herramientas anteriores para establecer un comportamiento básico legítimo del robot de Google.
Supervisión de respuestas del servidor
Splitt también destacó la importancia de monitorear las respuestas del servidor a las solicitudes de rastreo, en particular:
- errores de la serie 500
- Errores de recuperación
- Tiempos de espera
- Problemas de DNS
Estos problemas pueden afectar significativamente la eficiencia del rastreo y la visibilidad de la búsqueda en sitios web más grandes que albergan millones de páginas.
Splitt dice:
“Preste atención a las respuestas que su servidor le dio al robot de Google, especialmente a una gran cantidad de 500 respuestas, errores de recuperación, tiempos de espera, problemas de DNS y otras cosas”.
Señaló que, si bien algunos errores son transitorios, los problemas persistentes “podrían ser investigados más a fondo”.
Splitt sugirió utilizar el análisis de registros del servidor para hacer un diagnóstico más sofisticado, aunque reconoció que “no es algo básico”.
Sin embargo, enfatizó su valor y señaló que “mirar los registros de su servidor web… es una forma poderosa de comprender mejor lo que está sucediendo en su servidor”.
Impacto potencial
Más allá de la seguridad, el tráfico falso de Googlebot puede afectar el rendimiento del sitio web y los esfuerzos de SEO.
Splitt enfatizó que la accesibilidad del sitio web en un navegador no garantiza el acceso del robot de Google, citando varias barreras potenciales, que incluyen:
- Restricciones de robots.txt
- Configuraciones de firewall
- Sistemas de protección contra robots
- Problemas de enrutamiento de red
Mirando hacia el futuro
El tráfico falso de Googlebot puede ser molesto, pero Splitt dice que no deberías preocuparte demasiado por los casos raros.
Supongamos que la actividad falsa del rastreador se convierte en un problema o consume demasiada potencia del servidor. En ese caso, puede tomar medidas como limitar la tasa de solicitudes, bloquear direcciones IP específicas o utilizar mejores métodos de detección de bots.
Para obtener más información sobre este tema, vea el video completo a continuación:
Imagen destacada: eamesbot/Shutterstock
Con información de Search Engine Journal.
Leer la nota Completa > Tenga cuidado con el tráfico falso de Googlebot