John Mueller de Google respondió una pregunta sobre por qué Google indexa páginas cuyo rastreo no está permitido mediante robots.txt y por qué es seguro ignorar los informes relacionados de Search Console sobre esos rastreos.
Tráfico de bot para consultar las URL de parámetros
La persona que hizo la pregunta documentó que los bots estaban creando enlaces a URL de parámetros de consulta inexistentes (?q=xyz) a páginas con metaetiquetas noindex que también están bloqueadas en robots.txt. Lo que generó la pregunta es que Google está rastreando los enlaces a esas páginas, siendo bloqueado por robots.txt (sin ver una metaetiqueta de robots noindex) y luego siendo reportado en Google Search Console como “Indexado, aunque bloqueado por robots.txt”.
La persona hizo la siguiente pregunta:
“Pero aquí está la gran pregunta: ¿por qué Google indexaría páginas cuando ni siquiera pueden ver el contenido? ¿Cuál es la ventaja en eso?
John Mueller de Google confirmó que si no pueden rastrear la página no pueden ver la metaetiqueta noindex. También hace una mención interesante del sitio: operador de búsqueda, aconsejando ignorar los resultados porque los usuarios “promedio” no verán esos resultados.
Él escribió:
“Sí, tienes razón: si no podemos rastrear la página, no podemos ver el noindex. Dicho esto, si no podemos rastrear las páginas, entonces no hay mucho que indexar. Entonces, si bien es posible que vea algunas de esas páginas con un sitio específico: consulta, el usuario promedio no las verá, por lo que no me preocuparía por eso. Noindex también está bien (sin robots.txt no permitido), solo significa que las URL terminarán siendo rastreadas (y terminarán en el informe de Search Console para rastreadas/no indexadas; ninguno de estos estados causa problemas al resto del sitio). . La parte importante es que no los hagas rastreables e indexables”.
Conclusiones:
1. La respuesta de Mueller confirma las limitaciones en el uso del operador de búsqueda avanzada Site:search por motivos de diagnóstico. Una de esas razones es que no está conectado al índice de búsqueda normal, es algo completamente separado.
John Mueller de Google comentó sobre el operador de búsqueda de sitios en 2021:
“La respuesta corta es que una consulta de sitio: no debe ser completa ni utilizarse con fines de diagnóstico.
Una consulta de sitio es un tipo específico de búsqueda que limita los resultados a un determinado sitio web. Básicamente es solo la palabra sitio, dos puntos y luego el dominio del sitio web.
Esta consulta limita los resultados a un sitio web específico. No pretende ser una colección completa de todas las páginas de ese sitio web”.
2. La etiqueta Noindex sin utilizar un archivo robots.txt está bien para este tipo de situaciones en las que un bot se vincula a páginas inexistentes que el robot de Google descubre.
3. Las URL con la etiqueta noindex generarán una entrada “rastreada/no indexada” en Search Console y no tendrán un efecto negativo en el resto del sitio web.
Lea la pregunta y la respuesta en LinkedIn:
¿Por qué Google indexaría páginas cuando ni siquiera pueden ver el contenido?
Imagen destacada de Shutterstock/Krakenimages.com
Con información de Search Engine Journal.
Leer la nota Completa > Por qué Google indexa páginas web bloqueadas