Search Relations de Google respondió varias preguntas sobre la indexación de páginas web en el último episodio del podcast ‘Search Off The Record’.
Los temas discutidos fueron cómo evitar que Googlebot rastree secciones específicas de una página y cómo evitar que Googlebot acceda a un sitio por completo.
John Mueller y Gary Illyes de Google respondieron las preguntas examinadas en este artículo.
Bloqueo de Googlebot de secciones específicas de la página web
Mueller dice que es imposible cuando se le preguntó cómo evitar que Googlebot rastree secciones específicas de la página web, como las áreas “también compradas” en las páginas de productos.
“La versión corta es que no se puede bloquear el rastreo de una sección específica en una página HTML”, dijo Mueller.
Continuó ofreciendo dos posibles estrategias para abordar el problema, ninguna de las cuales, enfatizó, son soluciones ideales.
Mueller sugirió usar el atributo HTML data-nosnippet para evitar que el texto aparezca en un fragmento de búsqueda.
Alternativamente, podría usar un iframe o JavaScript con la fuente bloqueada por robots.txt, aunque advirtió que no es una buena idea.
“El uso de un iframe robotizado o un archivo JavaScript puede causar problemas en el rastreo y la indexación que son difíciles de diagnosticar y resolver”, afirmó Mueller.
Aseguró a todos los que escuchaban que si el contenido en cuestión se reutiliza en varias páginas, no es un problema que deba solucionarse.
“No hay necesidad de bloquear a Googlebot para que no vea ese tipo de duplicación”, agregó.
Bloquear el acceso de Googlebot a un sitio web
En respuesta a una pregunta sobre cómo evitar que Googlebot acceda cualquier parte de un sitio, Illyes proporcionó una solución fácil de seguir.
“La forma más sencilla es robots.txt: si agrega un disallow: / para el agente de usuario de Googlebot, Googlebot dejará su sitio solo mientras mantenga esa regla allí”, explicó Illyes.
Para aquellos que buscan una solución más robusta, Illyes ofrece otro método:
“Si desea bloquear incluso el acceso a la red, debe crear reglas de firewall que carguen nuestros rangos de IP en una regla de denegación”, dijo.
Consulte la documentación oficial de Google para obtener una lista de las direcciones IP de Googlebot.
En resumen
Aunque es imposible evitar que Googlebot acceda a secciones específicas de una página HTML, métodos como el uso del atributo data-nosnippet pueden ofrecer control.
Cuando considere bloquear Googlebot de su sitio por completo, una simple regla de rechazo en su archivo robots.txt hará el truco. Sin embargo, también están disponibles medidas más extremas, como la creación de reglas de firewall específicas.
Imagen destacada generada por el autor usando Midjourney.
Fuente: Búsqueda de Google extraoficial
Con información de Search Engine Journal.
Leer la nota Completa > Cómo controlar la interacción de Googlebot con su sitio web