Google agregó silenciosamente un nuevo bot a la documentación de su rastreador que rastrea en nombre de los clientes comerciales de su producto Vertex AI. Parece que el nuevo rastreador sólo puede rastrear sitios controlados por los propietarios del sitio, pero la documentación no es del todo clara al respecto.

Agentes de IA de Vertex

Google-CloudVertexBot, el nuevo rastreador, ingiere el contenido del sitio web para los clientes de Vertex AI, a diferencia de otros bots enumerados en la documentación de Search Central que están vinculados a la Búsqueda de Google o a la publicidad.

La documentación oficial de Google Cloud ofrece la siguiente información:

“En Vertex AI Agent Builder, existen varios tipos de almacenes de datos. Un almacén de datos sólo puede contener un tipo de datos”.

Continúa enumerando seis tipos de datos, uno de los cuales son datos de sitios web públicos. Sobre el rastreo, la documentación dice que existen dos tipos de rastreo de sitios web con limitaciones específicas para cada tipo.

  1. Indexación básica de sitios web
  2. Indexación avanzada de sitios web

La documentación es confusa

La documentación explica los datos del sitio web:

“Un almacén de datos con datos de sitios web utiliza datos indexados de sitios web públicos. Puede proporcionar un conjunto de dominios y configurar búsquedas o recomendaciones sobre los datos rastreados desde los dominios. Estos datos incluyen texto e imágenes etiquetadas con metadatos”.

La descripción anterior no dice nada sobre la verificación de dominios. La descripción de la indexación básica de sitios web tampoco dice nada sobre la verificación del propietario del sitio.

Pero la documentación para la indexación avanzada de sitios web dice que se requiere verificación de dominio y también impone cuotas de indexación.

Sin embargo, la documentación del rastreador en sí dice que el nuevo rastreador rastrea a “solicitud de los propietarios del sitio”, por lo que es posible que no rastree sitios públicos.

Ahora viene la parte confusa: la notación del registro de cambios para este nuevo rastreador indica que el nuevo rastreador podría llegar a eliminar su sitio.

Esto es lo que dice el registro de cambios:

“El nuevo rastreador se introdujo para ayudar a los propietarios de sitios a identificar el nuevo tráfico del rastreador”.

Nuevo rastreador de Google

El nuevo rastreador se llama Google-CloudVertexBot.

Esta es la nueva información al respecto:

“Google-CloudVertexBot rastrea sitios a petición de los propietarios del sitio al crear agentes Vertex AI.

Fichas de agente de usuario

  • Google-CloudVertexBot
  • robot de Google”

Subcadena de agente de usuario
Google-CloudVertexBot

Documentación poco clara

La documentación parece indicar que el nuevo rastreador no indexa sitios públicos, pero el registro de cambios indica que se agregó para que los propietarios de los sitios puedan identificar el tráfico del nuevo rastreador. ¿Deberías bloquear el nuevo rastreador con un archivo robots.txt? por si acaso? No es descabellado considerarlo dado que la documentación no es bastante clara sobre si solo rastrea dominios que se verifica que están bajo el control de la entidad que inicia el rastreo.

Lea la nueva documentación de Google:

Google-CloudVertexBot

Imagen destacada de Shutterstock/ShotPrime Studio

Con información de Search Engine Journal.

Leer la nota Completa > Google lanza silenciosamente un nuevo rastreador de inteligencia artificial

LEAVE A REPLY

Please enter your comment!
Please enter your name here