Los operadores de sitios web en toda la web informan una mayor actividad de los rastreadores web de IA. Este aumento plantea preocupaciones sobre el rendimiento del sitio, el análisis y los recursos del servidor.

Estos bots consumen un ancho de banda significativo para recopilar datos para modelos de idiomas grandes, lo que podría afectar las métricas de rendimiento relevantes para las clasificaciones de búsqueda.

Esto es lo que necesitas saber.

Cómo los rastreadores de IA pueden afectar el rendimiento del sitio

Los profesionales de SEO optimizan regularmente los rastreadores tradicionales de motores de búsqueda, pero la creciente presencia de rastreadores de IA de compañías como OpenAi, Anthrope y Amazon presenta nuevas consideraciones técnicas.

Varios operadores del sitio han reportado problemas de rendimiento y mayores cargas de servidor directamente atribuibles a la actividad de AI Crawler.

“SourceHut continúa enfrentando interrupciones debido a los agresivos rastreadores de LLM”, informó el servicio de alojamiento de GIT en su página de estado.

En respuesta, SourceHut ha “bloqueado unilateralmente a varios proveedores de nubes, incluido GCP [Google Cloud] y [Microsoft] Azure, para los altos volúmenes de tráfico BOT que se originan en sus redes “.

Los datos del servicio de alojamiento en la nube VERCEL muestran la escala de este tráfico: GPTBOT de OpenAI generó 569 millones de solicitudes en un solo mes, mientras que Claude de Anthrope representó 370 millones.

Estos rastreadores de IA representaron alrededor del 20 por ciento del volumen de rastreadores de búsqueda de Google durante el mismo período.

El impacto potencial en los datos de análisis

El tráfico de bot significativo puede afectar los datos de análisis.

Según Doubleverify, una firma de métricas publicitarias, “El tráfico general inválido, también conocido como GIVT, bots que no deberían contar como vistas de AD, aumentó en un 86 por ciento en la segunda mitad de 2024 debido a los rastreadores de IA”.

La firma señaló que “un récord del 16 por ciento de GIVT de las impresiones de botes conocidos en 2024 fueron generados por aquellos que están asociados con raspadores de IA, como GPTBOT, Claudebot y Applebot”.

El proyecto Read The Docs descubrió que el bloqueo de los rastreadores de IA disminuyó su tráfico en un 75 por ciento, de 800 GB a 200 GB diario, ahorrando aproximadamente $ 1,500 por mes en costos de ancho de banda.

Identificación de patrones de rastreadores de IA

Comprender el comportamiento de AI Crawler puede ayudar con el análisis de tráfico.

Lo que hace que los rastreadores de IA sean diferentes de los bots tradicionales es su frecuencia y profundidad de acceso. Si bien los rastreadores de motores de búsqueda generalmente siguen patrones predecibles, los rastreadores de IA exhiben comportamientos más agresivos.

Dennis Schubert, quien mantiene la infraestructura para la red social de la diáspora, observó que los rastreadores de IA “no solo arrastran una página una vez y luego siguen adelante. Oh, no, regresan cada 6 horas porque jajaja, por qué no”.

Este rastreo repetido multiplica el consumo de recursos, ya que se accede a las mismas páginas repetidamente sin una lógica clara.

Más allá de la frecuencia, los rastreadores de IA son más minuciosos, explorando más contenido que los visitantes típicos.

Drew Devault, fundador de Sourcehut, señaló que los rastreadores acceden a “cada página de cada registro de GIT, y cada compromiso en su repositorio”, que puede ser particularmente intensivo en recursos para los sitios pesados ​​de contenido.

Si bien el alto volumen de tráfico es preocupante, la identificación y la gestión de estos rastreadores presenta desafíos adicionales.

A medida que la tecnología de rastreadores evoluciona, los métodos de bloqueo tradicionales resultan cada vez más ineficaces.

El desarrollador de software Xe IASO señaló: “Es inútil bloquear los bots de IA Crawler porque mienten, cambian a su agente de usuario, usan direcciones IP residenciales como proxies y más”.

Equilibrar la visibilidad con la gestión de recursos

Los propietarios de sitios web y los profesionales de SEO enfrentan una consideración práctica: administrar rastreadores intensivos en recursos mientras mantienen la visibilidad para motores de búsqueda legítimos.

Para determinar si los rastreadores de IA están afectando significativamente su sitio:

  • Revise los registros del servidor para patrones de tráfico inusuales, especialmente de los rangos de IP del proveedor de la nube
  • Busque picos en el uso de ancho de banda que no se corresponda con la actividad del usuario
  • Verifique el alto tráfico a páginas intensivas en recursos como archivos o puntos finales de API
  • Monitorear los patrones inusuales en las métricas de vital web de su web central

Hay varias opciones disponibles para las afectadas por el tráfico excesivo de AI Crawler.

Google introdujo una solución llamada Google-Extended en el archivo Robots.txt. Esto permite que los sitios web dejen de usar su contenido para entrenar los servicios Gemini y Vertex AI de Google, al tiempo que permite que esos sitios aparezcan en los resultados de búsqueda.

Cloudflare anunció recientemente “AI Labyrinth”, explicando: “Cuando detectamos el rastreo no autorizado, en lugar de bloquear la solicitud, vincularemos a una serie de páginas generadas por IA que son lo suficientemente convincentes como para atraer a un rastreador para atravesarlos”.

Mirando hacia el futuro

A medida que AI se integra en la búsqueda y el descubrimiento, los profesionales de SEO deben administrar los rastreadores con cuidado.

Aquí hay algunos próximos pasos prácticos:

  1. Registros de servidor de auditoría para evaluar el impacto de AI Crawler en sus sitios específicos
  2. Considere implementar Google-Extendida en robots.txt para mantener la visibilidad de búsqueda mientras limita el acceso a la capacitación de IA
  3. Ajuste los filtros de análisis para separar el tráfico BOT para informes más precisos
  4. Para los sitios gravemente afectados, investigue opciones de mitigación más avanzadas

La mayoría de los sitios web funcionarán bien con los archivos y monitoreo de txts.txt estándar. Sin embargo, los sitios de alto tráfico pueden beneficiarse de soluciones más avanzadas.


Imagen destacada: Lightspring/Shutterstock

Con información de Search Engine Journal.

Leer la nota Completa > Según los informes, los rastreadores de IA están drenando los recursos del sitio y el análisis de sesgo

LEAVE A REPLY

Please enter your comment!
Please enter your name here