La desindexación de URLs preocupa a profesionales SEO de todo el mundo porque afecta directamente a la visibilidad orgánica y, en consecuencia, al tráfico y a la rentabilidad. Aunque Google ofrece pautas claras sobre indexación, existen numerosos factores —técnicos, de calidad y algorítmicos— que intervienen en la decisión de incluir o retirar una página del índice.
Este estudio se propone analizar en profundidad dichas causas, contrastando las razones oficiales con la evidencia empírica documentada por la comunidad SEO internacional, y proporcionando una visión completa de cómo y por qué se producen los procesos de desindexación.
Resumen
La desindexación de URLs por parte de Google preocupa a webmasters y profesionales SEO en todo el mundo. Una URL desindexada es aquella que antes aparecía en los resultados de búsqueda pero que ha sido retirada del índice, o bien nunca llega a indexarse.
En este estudio se analizan:
- Las causas oficiales descritas por Google.
- Hallazgos de estudios internacionales recientes (hasta 2025).
- Factores técnicos y de contenido (estructura de URLs, duplicidad, similitud).
- Reglas empíricas detectadas por la comunidad SEO.
- Diferencias según tipo de sitio (e-commerce, noticias, blogs, foros).
- Evolución histórica de las políticas de indexación de Google (2019–2025).
Los resultados confirman que la desindexación no es arbitraria: responde a directrices técnicas, criterios de calidad y ajustes algorítmicos que buscan un índice más útil y manejable. Finalmente, se aportan recomendaciones prácticas para mejorar la permanencia de las páginas en el índice.
Palabras clave: SEO, indexación, Google, desindexación, calidad de contenido, crawl budget.
Introducción
Google proporciona mecanismos explícitos para controlar la indexación, como el uso de etiquetas noindex o bloqueos de rastreo mediante robots.txt. Sin embargo, en la práctica existen múltiples causas adicionales, no siempre descritas de forma oficial, que influyen en la decisión de indexar o retirar páginas.
Este estudio busca dar respuesta a cuestiones clave:
- ¿Cuáles son las razones oficiales para la desindexación?
- ¿Qué causas adicionales se han observado en la práctica?
- ¿Qué reglas empíricas han identificado los estudios recientes?
- ¿Cómo ha evolucionado la política de indexación de Google en los últimos años?
- ¿Qué diferencias existen según el tipo de sitio web?
Metodología
Este estudio combina tres fuentes principales:
- Documentación oficial de Google: guías sobre indexación, políticas de calidad y cobertura en Search Console.
- Estudios internacionales de SEO: análisis de IndexCheckr, Stan Ventures, JumpFly, Ahrefs, Sistrix y reportes de expertos como Marie Haynes.
- Casos reales de la comunidad SEO global: experiencias compartidas en foros, conferencias y redes profesionales.
Se clasificaron las causas en dos bloques:
- Oficiales: aquellas reconocidas por Google en su documentación.
- Observadas: las identificadas empíricamente por expertos y usuarios.
Además, se recopilaron datos estadísticos recientes sobre tasas de indexación y se analizaron eventos históricos entre 2019 y 2025.
Resultados
1. Razones oficiales
Google documenta de manera explícita situaciones en las que una URL puede ser eliminada o nunca llegar a indexarse. Estas causas representan el marco de referencia más claro para webmasters y profesionales SEO.
- Directivas de noindex: metaetiquetas o encabezados HTTP que ordenan no indexar.
- Bloqueos de rastreo: robots.txt, requisitos de inicio de sesión o firewalls que impiden a Google rastrear y validar el contenido.
- Errores técnicos (HTTP): respuestas 404/410 que provocan una desindexación casi inmediata o errores 5XX persistentes.
- Redirecciones y migraciones: las URLs redirigidas acaban siendo eliminadas del índice.
- Políticas de spam y calidad: Google puede llevar a cabo acciones manuales si haycloaking, keyword stuffing, enlaces manipulados, malware o phishing en tu web.
- Acciones legales o voluntarias: solicitudes por DMCA, privacidad o herramientas de eliminación de Search Console.
2. Causas
Más allá de la documentación oficial, la comunidad SEO ha identificado factores adicionales que influyen en la decisión algorítmica de Google:
- Contenido duplicado o muy similar: Google selecciona una versión canónica y descarta el resto.
- Thin content: las páginas con poco contenido o irrelevantes aparecen como “Crawled – not indexed”.
- Falta de originalidad: contenido parafraseado o generado por IA sin valor añadido.
- Desactualización: páginas obsoletas, sin tráfico ni enlaces.
- Problemas de arquitectura y enlaces internos: páginas huérfanas o demasiado profundas.
- Crawl budget y frecuencia de rastreo:
- Regla de los 130 días: sin rastreo en ese plazo, Google tiende a eliminar.
- Regla de los 190 días: tras ese periodo, la reindexación es muy improbable.
- Regla de los 6 meses: el 93,2% de las páginas indexadas lo logran en este plazo.
- El 21,3% de las URLs indexadas terminan desindexadas, muchas en los primeros meses.
- Accidentes o bugs externos: en 2019, 2020 y 2022 se reportaron fallos de Google que desindexaron URLs sin ser un problema de la web.
3. Datos
- Solo el 38% de las páginas analizadas lograron ser indexadas.
- El 62% nunca entró al índice.
- La tasa de indexación mejoró entre 2022 y 2025.
- El 93,2% de las páginas indexadas lo lograron en los primeros seis meses.
- De las que se indexaron, un 21,3% fueron eliminadas:
- 13,7% en los primeros tres meses.
- 2% en la primera semana.
4. Evolución
- 2019: un bug de abril eliminó un 4% del índice global.
- 2020: problemas con selección de cannonicals y transición a Mobile-First Indexing.
- 2021: migración completa a Mobile-First Indexing; informes de cobertura en Search Console.
- 2022: incidentes en julio y agosto por fallos técnicos y caídas de data centers.
- 2023: Helpful Content Update que endureció los criterios de calidad.
- 2025: “Great Indexing Cleanup”, una limpieza masiva de contenido duplicado y antiguo.
5. Tipología
- E-commerce: riesgo elevado de duplicación en los textos de fichas y filtros. Es necesario consolidar variantes, usar URLs canónicas y añadir contenido único.
- Noticias: artículos indexados con rapidez que pierden visibilidad con el tiempo. Google mantiene solo piezas relevantes o buscadas.
- Blogs: vulnerables a la Helpful Content Update; los artículos superficiales fueron eliminados.
- Foros y UGC: hilos antiguos, paginaciones profundas y contenido duplicado que tienden a ser descartados por parte de Google.
Discusión
Los resultados evidencian tres tendencias principales:
- Los factores técnicos y de calidad siguen siendo los responsables más comunes de exclusiones.
- Google ha cambiado de paradigma: ahora prefiere indexar solo lo valioso desde el inicio.
- El impacto varía por sectores, con mayor riesgo en e-commerce y blogs generalistas.
Limitaciones
- Dependencia de fuentes públicas, sin acceso a datos internos de Google.
- Sesgo hacia e-commerce, noticias y blogs, donde más se documentan casos.
- Variabilidad geográfica: predominio de estudios en inglés y mercados occidentales.
- Horizonte temporal: los hallazgos llegan hasta mayo de 2025, pero los algoritmos cambian continuamente.
Recomendaciones
La desindexación de URLs es un fenómeno multifactorial, resultado de causas técnicas, de calidad y de cambios algorítmicos.
Recomendaciones clave:
- Priorizar la calidad sobre la cantidad.
- Realizar auditorías SEO periódicas de contenido.
- Optimizar la arquitectura y los enlaces internos.
- Monitorear Search Console de forma continua.
- Evitar prácticas de spam o de bajo valor.
- Aplicar la regla de los 6 meses como referencia.
La indexación hoy es un privilegio que se gana con originalidad, utilidad y mantenimiento constante.
Referencias
- Google Search Central – Documentación oficial sobre indexación y políticas.
- Ahrefs – Estudios de indexación y visibilidad (2019–2023).
- Semrush – Factores de ranking y exclusión de páginas.
- Sistrix – Informes de visibilidad e indexación.
- IndexCheckr – Estudio global sobre indexación (2025).
- Marie Haynes – Análisis de la limpieza algorítmica de mayo 2025.
- Search Engine Journal y Search Engine Land – Cobertura de incidencias de indexación.
- Stan Ventures – Datos sobre indexación y calidad de contenido.
- JumpFly – Estudios sobre duplicidad y thin content en e-commerce.
- Comunidad SEO internacional – Casos reportados en foros y conferencias (2019–2025).
Gráficas
Tabla 1. Reglas empíricas sobre indexación y desindexación:
| Regla | Plazo/Umbral | Fuente / Estudio | Explicación técnica | Impacto práctico en SEO |
|---|---|---|---|---|
| Regla de los 130 días | ~130 días sin recrawl | Alexis Rylko (2023) | Si Google no vuelve a rastrear la URL en ese periodo, la considera caducada y la saca del índice. | Importante mantener rastreo frecuente: enlazado interno, sitemap actualizado, señales de actividad. |
| Regla de los 190 días | ~190 días sin recrawl | Estudios posteriores (2024) | Más allá de 190 días sin visitas de Googlebot, la probabilidad de reindexación es de casi cero. | Páginas sin señales ni actualizaciones están condenadas a ser olvidadas. |
| Regla de los 6 meses | 93,2% indexadas en 6 meses | IndexCheckr (2025, 16M URLs) | Si una página no se indexa en ese lapso, lo más probable es que nunca lo haga. | Revisar y optimizar cualquier URL no indexada a los 6 meses. |
| Regla del 20% desindexación eventual | 21,3% de páginas indexadas terminan fuera | IndexCheckr (2025) | Google reevalúa constantemente y retira 1 de cada 5 páginas. | El índice es volátil: auditar contenido periódicamente para conservar visibilidad. |
| Regla del 2% en la primera semana | ~2% se desindexan en 7 días | IndexCheckr (2025) | Google hace una “limpieza rápida” tras la indexación inicial. | No confiarse en la indexación inmediata: esperar confirmación semanas después. |
| Regla de la canibalización (canónico único) | Sin plazo fijo | Gary Illyes / John Mueller | Google solo indexa 1 versión entre duplicados o contenidos muy similares. | Consolidar páginas duplicadas, usar canónicos bien definidos, evitar variaciones innecesarias. |
| Regla del contenido ligero (“thin content”) | Variable (meses o incluso semanas) | Martin Splitt / casos SEO | Páginas pobres, vacías o parafraseadas son removidas progresivamente. | Mejorar o eliminar thin content; evitar relleno o reescrituras sin valor. |
| Regla del pico y caída (noticias) | Semanas/meses tras perder vigencia | Observaciones en medios | Google indexa rápido noticias frescas, pero las desindexa al perder interés. | Mantener vivas noticias clave enlazándolas o creando recopilatorios; asumir que lo efímero caduca. |


SEO desde 2004 – CEO en Indexando Marketing desde 2016 – IA lover y automatizaciones desde 2024.
