Google publicó una nueva actualización de robots.txt explicando cómo robots.txt permite que los editores y los SEO controlen los rastreadores de motores de búsqueda y otros bots (que obedecen robots.txt). La documentación incluye ejemplos de páginas específicas de bloqueo (como carritos de compras), restringir ciertos bots y manejar el comportamiento de rastreo con reglas simples.
De lo básico a avanzado
La nueva documentación ofrece una introducción rápida a lo que es robots.txt y progresa gradualmente a una cobertura cada vez más avanzada de lo que los editores y los SEO pueden hacer con robots.txt y cómo los beneficia.
El punto principal de la primera parte del documento es introducir robots.txt como un protocolo web estable con un historial de 30 años que es ampliamente compatible con los motores de búsqueda y otros rastreadores.
La consola de búsqueda de Google informará un mensaje de error 404 si falta robots.txt. Está bien que eso suceda, pero si te molesta ver que en el GSC puedes esperar 30 días y la advertencia disminuirá. Un alterador es crear un archivo en blanco Robots.txt que también sea aceptable por Google.
La nueva documentación de Google explica:
“Puede dejar su archivo robots.txt vacío (o no tener uno en absoluto) si todo su sitio puede estar rastreado o puede agregar reglas para administrar el rastreo”.
A partir de ahí, cubre los conceptos básicos como reglas personalizadas para restringir páginas o secciones específicas.
Los usos avanzados de robots.txt cubre estas capacidades:
- Pueden apuntar a rastreadores específicos con diferentes reglas.
- Habilita los patrones de URL de bloqueo como PDF o páginas de búsqueda.
- Habilita el control granular sobre bots específicos.
- Admite comentarios para la documentación interna.
La nueva documentación termina describiendo cuán simple es editar el archivo robots.txt (es un archivo de texto con reglas simples), por lo que todo lo que necesita es un editor de texto simple. Muchos sistemas de administración de contenido tienen una manera de editarlo y hay herramientas disponibles para probar si el archivo robots.txt está utilizando la sintaxis correcta.
Lea la nueva documentación aquí:
Robots Flexer: Robots.txt: una forma flexible de controlar cómo las máquinas exploran su sitio web
Imagen destacada de Shutterstock/Bluestork
Con información de Search Engine Journal.
Leer la nota Completa > Google publica nuevos robots.txt explicador