La desindexación de URLs preocupa a profesionales SEO de todo el mundo porque afecta directamente a la visibilidad orgánica y, en consecuencia, al tráfico y a la rentabilidad. Aunque Google ofrece pautas claras sobre indexación, existen numerosos factores —técnicos, de calidad y algorítmicos— que intervienen en la decisión de incluir o retirar una página del índice.

Este estudio se propone analizar en profundidad dichas causas, contrastando las razones oficiales con la evidencia empírica documentada por la comunidad SEO internacional, y proporcionando una visión completa de cómo y por qué se producen los procesos de desindexación.

Resumen

La desindexación de URLs por parte de Google preocupa a webmasters y profesionales SEO en todo el mundo. Una URL desindexada es aquella que antes aparecía en los resultados de búsqueda pero que ha sido retirada del índice, o bien nunca llega a indexarse.

En este estudio se analizan:

Las causas oficiales descritas por Google.
Hallazgos de estudios internacionales recientes (hasta 2025).
Factores técnicos y de contenido (estructura de URLs, duplicidad, similitud).
Reglas empíricas detectadas por la comunidad SEO.
Diferencias según tipo de sitio (e-commerce, noticias, blogs, foros).
Evolución histórica de las políticas de indexación de Google (2019–2025).

Los resultados confirman que la desindexación no es arbitraria: responde a directrices técnicas, criterios de calidad y ajustes algorítmicos que buscan un índice más útil y manejable. Finalmente, se aportan recomendaciones prácticas para mejorar la permanencia de las páginas en el índice.

Palabras clave: SEO, indexación, Google, desindexación, calidad de contenido, crawl budget.

Introducción

Google proporciona mecanismos explícitos para controlar la indexación, como el uso de etiquetas noindex o bloqueos de rastreo mediante robots.txt. Sin embargo, en la práctica existen múltiples causas adicionales, no siempre descritas de forma oficial, que influyen en la decisión de indexar o retirar páginas.

Este estudio busca dar respuesta a cuestiones clave:

¿Cuáles son las razones oficiales para la desindexación?
¿Qué causas adicionales se han observado en la práctica?
¿Qué reglas empíricas han identificado los estudios recientes?
¿Cómo ha evolucionado la política de indexación de Google en los últimos años?
¿Qué diferencias existen según el tipo de sitio web?

Metodología

Este estudio combina tres fuentes principales:

Documentación oficial de Google: guías sobre indexación, políticas de calidad y cobertura en Search Console.
Estudios internacionales de SEO: análisis de IndexCheckr, Stan Ventures, JumpFly, Ahrefs, Sistrix y reportes de expertos como Marie Haynes.
Casos reales de la comunidad SEO global: experiencias compartidas en foros, conferencias y redes profesionales.

Se clasificaron las causas en dos bloques:

Oficiales: aquellas reconocidas por Google en su documentación.
Observadas: las identificadas empíricamente por expertos y usuarios.

Además, se recopilaron datos estadísticos recientes sobre tasas de indexación y se analizaron eventos históricos entre 2019 y 2025.

Resultados

1. Razones oficiales

Google documenta de manera explícita situaciones en las que una URL puede ser eliminada o nunca llegar a indexarse. Estas causas representan el marco de referencia más claro para webmasters y profesionales SEO.

Directivas de noindex: metaetiquetas o encabezados HTTP que ordenan no indexar.
Bloqueos de rastreo: robots.txt, requisitos de inicio de sesión o firewalls que impiden a Google rastrear y validar el contenido.
Errores técnicos (HTTP): respuestas 404/410 que provocan una desindexación casi inmediata o errores 5XX persistentes.
Redirecciones y migraciones: las URLs redirigidas acaban siendo eliminadas del índice.
Políticas de spam y calidad: Google puede llevar a cabo acciones manuales si haycloaking, keyword stuffing, enlaces manipulados, malware o phishing en tu web.
Acciones legales o voluntarias: solicitudes por DMCA, privacidad o herramientas de eliminación de Search Console.

2. Causas

Más allá de la documentación oficial, la comunidad SEO ha identificado factores adicionales que influyen en la decisión algorítmica de Google:

Contenido duplicado o muy similar: Google selecciona una versión canónica y descarta el resto.
Thin content: las páginas con poco contenido o irrelevantes aparecen como “Crawled – not indexed”.
Falta de originalidad: contenido parafraseado o generado por IA sin valor añadido.
Desactualización: páginas obsoletas, sin tráfico ni enlaces.
Problemas de arquitectura y enlaces internos: páginas huérfanas o demasiado profundas.
Crawl budget y frecuencia de rastreo:
- Regla de los 130 días: sin rastreo en ese plazo, Google tiende a eliminar.
- Regla de los 190 días: tras ese periodo, la reindexación es muy improbable.
- Regla de los 6 meses: el 93,2% de las páginas indexadas lo logran en este plazo.
- El 21,3% de las URLs indexadas terminan desindexadas, muchas en los primeros meses.
Accidentes o bugs externos: en 2019, 2020 y 2022 se reportaron fallos de Google que desindexaron URLs sin ser un problema de la web.

3. Datos

Solo el 38% de las páginas analizadas lograron ser indexadas.
El 62% nunca entró al índice.
La tasa de indexación mejoró entre 2022 y 2025.
El 93,2% de las páginas indexadas lo lograron en los primeros seis meses.
De las que se indexaron, un 21,3% fueron eliminadas:
- 13,7% en los primeros tres meses.
- 2% en la primera semana.

4. Evolución

2019: un bug de abril eliminó un 4% del índice global.
2020: problemas con selección de cannonicals y transición a Mobile-First Indexing.
2021: migración completa a Mobile-First Indexing; informes de cobertura en Search Console.
2022: incidentes en julio y agosto por fallos técnicos y caídas de data centers.
2023: Helpful Content Update que endureció los criterios de calidad.
2025: “Great Indexing Cleanup”, una limpieza masiva de contenido duplicado y antiguo.

5. Tipología

E-commerce: riesgo elevado de duplicación en los textos de fichas y filtros. Es necesario consolidar variantes, usar URLs canónicas y añadir contenido único.
Noticias: artículos indexados con rapidez que pierden visibilidad con el tiempo. Google mantiene solo piezas relevantes o buscadas.
Blogs: vulnerables a la Helpful Content Update; los artículos superficiales fueron eliminados.
Foros y UGC: hilos antiguos, paginaciones profundas y contenido duplicado que tienden a ser descartados por parte de Google.

Discusión

Los resultados evidencian tres tendencias principales:

Los factores técnicos y de calidad siguen siendo los responsables más comunes de exclusiones.
Google ha cambiado de paradigma: ahora prefiere indexar solo lo valioso desde el inicio.
El impacto varía por sectores, con mayor riesgo en e-commerce y blogs generalistas.

Limitaciones

Dependencia de fuentes públicas, sin acceso a datos internos de Google.
Sesgo hacia e-commerce, noticias y blogs, donde más se documentan casos.
Variabilidad geográfica: predominio de estudios en inglés y mercados occidentales.
Horizonte temporal: los hallazgos llegan hasta mayo de 2025, pero los algoritmos cambian continuamente.

Recomendaciones

La desindexación de URLs es un fenómeno multifactorial, resultado de causas técnicas, de calidad y de cambios algorítmicos.

Recomendaciones clave:

Priorizar la calidad sobre la cantidad.
Realizar auditorías SEO periódicas de contenido.
Optimizar la arquitectura y los enlaces internos.
Monitorear Search Console de forma continua.
Evitar prácticas de spam o de bajo valor.
Aplicar la regla de los 6 meses como referencia.

La indexación hoy es un privilegio que se gana con originalidad, utilidad y mantenimiento constante.

Referencias

Google Search Central – Documentación oficial sobre indexación y políticas.
Ahrefs – Estudios de indexación y visibilidad (2019–2023).
Semrush – Factores de ranking y exclusión de páginas.
Sistrix – Informes de visibilidad e indexación.
IndexCheckr – Estudio global sobre indexación (2025).
Marie Haynes – Análisis de la limpieza algorítmica de mayo 2025.
Search Engine Journal y Search Engine Land – Cobertura de incidencias de indexación.
Stan Ventures – Datos sobre indexación y calidad de contenido.
JumpFly – Estudios sobre duplicidad y thin content en e-commerce.
Comunidad SEO internacional – Casos reportados en foros y conferencias (2019–2025).

Gráficas

Tabla 1. Reglas empíricas sobre indexación y desindexación:

Regla	Plazo/Umbral	Fuente / Estudio	Explicación técnica	Impacto práctico en SEO
Regla de los 130 días	~130 días sin recrawl	Alexis Rylko (2023)	Si Google no vuelve a rastrear la URL en ese periodo, la considera caducada y la saca del índice.	Importante mantener rastreo frecuente: enlazado interno, sitemap actualizado, señales de actividad.
Regla de los 190 días	~190 días sin recrawl	Estudios posteriores (2024)	Más allá de 190 días sin visitas de Googlebot, la probabilidad de reindexación es de casi cero.	Páginas sin señales ni actualizaciones están condenadas a ser olvidadas.
Regla de los 6 meses	93,2% indexadas en 6 meses	IndexCheckr (2025, 16M URLs)	Si una página no se indexa en ese lapso, lo más probable es que nunca lo haga.	Revisar y optimizar cualquier URL no indexada a los 6 meses.
Regla del 20% desindexación eventual	21,3% de páginas indexadas terminan fuera	IndexCheckr (2025)	Google reevalúa constantemente y retira 1 de cada 5 páginas.	El índice es volátil: auditar contenido periódicamente para conservar visibilidad.
Regla del 2% en la primera semana	~2% se desindexan en 7 días	IndexCheckr (2025)	Google hace una “limpieza rápida” tras la indexación inicial.	No confiarse en la indexación inmediata: esperar confirmación semanas después.
Regla de la canibalización (canónico único)	Sin plazo fijo	Gary Illyes / John Mueller	Google solo indexa 1 versión entre duplicados o contenidos muy similares.	Consolidar páginas duplicadas, usar canónicos bien definidos, evitar variaciones innecesarias.
Regla del contenido ligero (“thin content”)	Variable (meses o incluso semanas)	Martin Splitt / casos SEO	Páginas pobres, vacías o parafraseadas son removidas progresivamente.	Mejorar o eliminar thin content; evitar relleno o reescrituras sin valor.
Regla del pico y caída (noticias)	Semanas/meses tras perder vigencia	Observaciones en medios	Google indexa rápido noticias frescas, pero las desindexa al perder interés.	Mantener vivas noticias clave enlazándolas o creando recopilatorios; asumir que lo efímero caduca.

Fernando Ferreiro

SEO desde 2004 – CEO en Indexando Marketing desde 2016 – IA lover y automatizaciones desde 2024.

Estudio SEO sobre la desindexación de URLs