John Mueller de Google respondió una pregunta sobre Reddit sobre un error aparentemente falso ‘Noindex detectado en el error de encabezado HTTP’ de TOG-TAG-TAG ‘informado en la consola de búsqueda de Google para páginas que no tienen esa etiqueta X específica o cualquier otra directiva o bloque relacionado. Mueller sugirió algunas posibles razones, y los múltiples redditors proporcionaron explicaciones y soluciones razonables.

Noindex detectado

La persona que comenzó la discusión de Reddit describió un escenario que puede ser familiar para muchos. La consola de búsqueda de Google informa que no pudo indexar una página porque no estaba bloqueada para indexar la página (que es diferente de bloqueada desde el rastreo). Comprobar la página no revela presencia de un meta elemento noindex y no hay robots.txt bloqueando el rastreo.

Esto es lo que el descrito como su situación:

  • “GSC muestra” Noindex detectado en el encabezado HTTP de TOGOT-TAG-TAG “para una gran parte de mis URL. Sin embargo:
  • No puedo encontrar ningún noindex en la fuente HTML
  • No hay noindex en robots.txt
  • No hay noindex visible en los encabezados de respuesta al probar
  • La prueba en vivo en GSC muestra la página como indexable
  • El sitio está detrás de Cloudflare (hemos verificado las reglas de la página/WAF, etc.) “

También informaron que intentaron falsificar GoogleBot y probaron varias direcciones IP y solicitan encabezados y aún no encontraron ninguna pista para la fuente de la etiqueta X-Robots

Cloudflare sospechoso

Uno de los Redditors comentó en esa discusión para sugerir la solución de problemas si el problema se originó en Cloudflare.

Ofrecieron una completa instrucción paso a paso sobre cómo diagnosticar si CloudFlare o cualquier otra cosa impedía que Google indexara la página:

“Primero, compare la página de prueba en vivo versus rastreada en GSC para verificar si Google está viendo una respuesta anticuada. A continuación, inspeccione las reglas de transformación de Cloudflare, los encabezados de respuesta y los trabajadores para modificaciones. Use Curl con el agente de usuario de Googlebot y el bypass de caché (caché-control: no-cache) para verificar las respuestas del servidor. Si usa WordPress, deshabilite los complementos de SEO para descartar encabezados dinámicos. Además, registre las solicitudes de GoogleBot en el servidor y verifique si aparece X-Robots-Tag. Si todo falla, evite CloudFlare señalando DNS directamente a su servidor y vuelva a probar “.

El OP (póster orginal, el que comenzó la discusión) respondió que habían probado todas esas soluciones pero no pudieron probar un caché del sitio a través de GSC, solo el sitio en vivo (del servidor real, no CloudFlare).

Cómo probar con un Googlebot real

Curiosamente, el OP declaró que no pudieron probar su sitio usando Googlebot, pero en realidad hay una manera de hacerlo.

El testador de resultados ricos de Google utiliza el agente de usuario de GoogleBot, que también se origina en una dirección IP de Google. Esta herramienta es útil para verificar lo que ve Google. Si un exploit está causando que el sitio muestre una página encubierta, el testificador de resultados rico revelará exactamente lo que Google está indexando.

La página de soporte de resultados de un rico de Google confirma:

“Esta herramienta accede a la página como GoogleBot (es decir, no usar sus credenciales, sino como Google)”.

¿Respuesta de error 401?

Lo siguiente probablemente no fue la solución, pero es un poco interesante de conocimiento técnico de SEO.

Otro usuario compartió la experiencia de un servidor que respondió con una respuesta de error 401. Una respuesta 401 significa “no autorizado” y ocurre cuando una solicitud de recurso le faltan credenciales de autenticación o las credenciales proporcionadas no son las correctas. Su solución para hacer que la indexación bloquee los mensajes en la consola de búsqueda de Google fue agregar una notación en los robots.txt para bloquear el rastreo de las URL de la página de inicio de sesión.

John Mueller de Google en el error GSC

John Mueller cayó en la discusión para ofrecer su ayuda para diagnosticar el problema. Dijo que ha visto surgir este problema en relación con los CDN (redes de entrega de contenido). Una cosa interesante que dijo fue que también ha visto que esto sucede con URL muy antiguas. No explicó ese último, pero parece implicar algún tipo de error de indexación relacionado con las URL indexadas antiguas.

Esto es lo que dijo:

“Feliz de echar un vistazo si quieres hacer un ping algunas muestras. Lo he visto con CDN, lo he visto con rastreos realmente viejos (cuando el problema estaba allí hace mucho tiempo y un sitio solo tiene muchas URL antiguas indexadas), tal vez hay algo nuevo aquí … “

Control de clave: el índice de consola de búsqueda de Google noindex detectó

  • La consola de búsqueda de Google (GSC) puede informar “Noindex detectado en el encabezado HTTP de TOG-TAG-TAG” incluso cuando ese encabezado no está presente.
  • Los CDN, como CloudFlare, pueden interferir con la indexación. Se compartieron pasos para verificar si las reglas de transformación de Cloudflare, los encabezados de respuesta o el caché están afectando cómo GoogleBot ve la página.
  • Los datos de indexación anticuados del lado de Google también pueden ser un factor.
  • El testificador de resultados ricos de Google puede verificar lo que ve GoogleBot porque utiliza el agente de usuarios y la IP de Googlebot, revelando discrepancias que podrían no ser visibles al falsificar a un agente de usuarios.
  • 401 Las respuestas no autorizadas pueden evitar la indexación. Un usuario compartió que su problema implicaba páginas de inicio de sesión que debían bloquearse a través de robots.txt.
  • John Mueller sugirió CDN y URL históricamente rastreadas como posibles causas.

Con información de Search Engine Journal.

Leer la nota Completa > Google en la consola de búsqueda noindex detectó errores

LEAVE A REPLY

Please enter your comment!
Please enter your name here