La desindexación de URLs preocupa a profesionales SEO de todo el mundo porque afecta directamente a la visibilidad orgánica y, en consecuencia, al tráfico y a la rentabilidad. Aunque Google ofrece pautas claras sobre indexación, existen numerosos factores —técnicos, de calidad y algorítmicos— que intervienen en la decisión de incluir o retirar una página del índice.

Este estudio se propone analizar en profundidad dichas causas, contrastando las razones oficiales con la evidencia empírica documentada por la comunidad SEO internacional, y proporcionando una visión completa de cómo y por qué se producen los procesos de desindexación.

Resumen

La desindexación de URLs por parte de Google preocupa a webmasters y profesionales SEO en todo el mundo. Una URL desindexada es aquella que antes aparecía en los resultados de búsqueda pero que ha sido retirada del índice, o bien nunca llega a indexarse.

En este estudio se analizan:

  • Las causas oficiales descritas por Google.
  • Hallazgos de estudios internacionales recientes (hasta 2025).
  • Factores técnicos y de contenido (estructura de URLs, duplicidad, similitud).
  • Reglas empíricas detectadas por la comunidad SEO.
  • Diferencias según tipo de sitio (e-commerce, noticias, blogs, foros).
  • Evolución histórica de las políticas de indexación de Google (2019–2025).

Los resultados confirman que la desindexación no es arbitraria: responde a directrices técnicas, criterios de calidad y ajustes algorítmicos que buscan un índice más útil y manejable. Finalmente, se aportan recomendaciones prácticas para mejorar la permanencia de las páginas en el índice.

Palabras clave: SEO, indexación, Google, desindexación, calidad de contenido, crawl budget.

Introducción

Google proporciona mecanismos explícitos para controlar la indexación, como el uso de etiquetas noindex o bloqueos de rastreo mediante robots.txt. Sin embargo, en la práctica existen múltiples causas adicionales, no siempre descritas de forma oficial, que influyen en la decisión de indexar o retirar páginas.

Este estudio busca dar respuesta a cuestiones clave:

  • ¿Cuáles son las razones oficiales para la desindexación?
  • ¿Qué causas adicionales se han observado en la práctica?
  • ¿Qué reglas empíricas han identificado los estudios recientes?
  • ¿Cómo ha evolucionado la política de indexación de Google en los últimos años?
  • ¿Qué diferencias existen según el tipo de sitio web?

Metodología

Este estudio combina tres fuentes principales:

  • Documentación oficial de Google: guías sobre indexación, políticas de calidad y cobertura en Search Console.
  • Estudios internacionales de SEO: análisis de IndexCheckr, Stan Ventures, JumpFly, Ahrefs, Sistrix y reportes de expertos como Marie Haynes.
  • Casos reales de la comunidad SEO global: experiencias compartidas en foros, conferencias y redes profesionales.

Se clasificaron las causas en dos bloques:

  • Oficiales: aquellas reconocidas por Google en su documentación.
  • Observadas: las identificadas empíricamente por expertos y usuarios.

Además, se recopilaron datos estadísticos recientes sobre tasas de indexación y se analizaron eventos históricos entre 2019 y 2025.

Resultados

1. Razones oficiales

Google documenta de manera explícita situaciones en las que una URL puede ser eliminada o nunca llegar a indexarse. Estas causas representan el marco de referencia más claro para webmasters y profesionales SEO.

  • Directivas de noindex: metaetiquetas o encabezados HTTP que ordenan no indexar.
  • Bloqueos de rastreo: robots.txt, requisitos de inicio de sesión o firewalls que impiden a Google rastrear y validar el contenido.
  • Errores técnicos (HTTP): respuestas 404/410 que provocan una desindexación casi inmediata o errores 5XX persistentes.
  • Redirecciones y migraciones: las URLs redirigidas acaban siendo eliminadas del índice.
  • Políticas de spam y calidad: Google puede llevar a cabo acciones manuales si haycloaking, keyword stuffing, enlaces manipulados, malware o phishing en tu web.
  • Acciones legales o voluntarias: solicitudes por DMCA, privacidad o herramientas de eliminación de Search Console.

2. Causas

Más allá de la documentación oficial, la comunidad SEO ha identificado factores adicionales que influyen en la decisión algorítmica de Google:

  • Contenido duplicado o muy similar: Google selecciona una versión canónica y descarta el resto.
  • Thin content: las páginas con poco contenido o irrelevantes aparecen como “Crawled – not indexed”.
  • Falta de originalidad: contenido parafraseado o generado por IA sin valor añadido.
  • Desactualización: páginas obsoletas, sin tráfico ni enlaces.
  • Problemas de arquitectura y enlaces internos: páginas huérfanas o demasiado profundas.
  • Crawl budget y frecuencia de rastreo:
    • Regla de los 130 días: sin rastreo en ese plazo, Google tiende a eliminar.
    • Regla de los 190 días: tras ese periodo, la reindexación es muy improbable.
    • Regla de los 6 meses: el 93,2% de las páginas indexadas lo logran en este plazo.
    • El 21,3% de las URLs indexadas terminan desindexadas, muchas en los primeros meses.
  • Accidentes o bugs externos: en 2019, 2020 y 2022 se reportaron fallos de Google que desindexaron URLs sin ser un problema de la web.

3. Datos

  • Solo el 38% de las páginas analizadas lograron ser indexadas.
  • El 62% nunca entró al índice.
  • La tasa de indexación mejoró entre 2022 y 2025.
  • El 93,2% de las páginas indexadas lo lograron en los primeros seis meses.
  • De las que se indexaron, un 21,3% fueron eliminadas:
    • 13,7% en los primeros tres meses.
    • 2% en la primera semana.

4. Evolución

  • 2019: un bug de abril eliminó un 4% del índice global.
  • 2020: problemas con selección de cannonicals y transición a Mobile-First Indexing.
  • 2021: migración completa a Mobile-First Indexing; informes de cobertura en Search Console.
  • 2022: incidentes en julio y agosto por fallos técnicos y caídas de data centers.
  • 2023: Helpful Content Update que endureció los criterios de calidad.
  • 2025: “Great Indexing Cleanup”, una limpieza masiva de contenido duplicado y antiguo.

5. Tipología

  • E-commerce: riesgo elevado de duplicación en los textos de fichas y filtros. Es necesario consolidar variantes, usar URLs canónicas y añadir contenido único.
  • Noticias: artículos indexados con rapidez que pierden visibilidad con el tiempo. Google mantiene solo piezas relevantes o buscadas.
  • Blogs: vulnerables a la Helpful Content Update; los artículos superficiales fueron eliminados.
  • Foros y UGC: hilos antiguos, paginaciones profundas y contenido duplicado que tienden a ser descartados por parte de Google.

Discusión

Los resultados evidencian tres tendencias principales:

  • Los factores técnicos y de calidad siguen siendo los responsables más comunes de exclusiones.
  • Google ha cambiado de paradigma: ahora prefiere indexar solo lo valioso desde el inicio.
  • El impacto varía por sectores, con mayor riesgo en e-commerce y blogs generalistas.

Limitaciones

  • Dependencia de fuentes públicas, sin acceso a datos internos de Google.
  • Sesgo hacia e-commerce, noticias y blogs, donde más se documentan casos.
  • Variabilidad geográfica: predominio de estudios en inglés y mercados occidentales.
  • Horizonte temporal: los hallazgos llegan hasta mayo de 2025, pero los algoritmos cambian continuamente.

Recomendaciones

La desindexación de URLs es un fenómeno multifactorial, resultado de causas técnicas, de calidad y de cambios algorítmicos.

Recomendaciones clave:

  • Priorizar la calidad sobre la cantidad.
  • Realizar auditorías SEO periódicas de contenido.
  • Optimizar la arquitectura y los enlaces internos.
  • Monitorear Search Console de forma continua.
  • Evitar prácticas de spam o de bajo valor.
  • Aplicar la regla de los 6 meses como referencia.

La indexación hoy es un privilegio que se gana con originalidad, utilidad y mantenimiento constante.

Referencias

  • Google Search Central – Documentación oficial sobre indexación y políticas.
  • Ahrefs – Estudios de indexación y visibilidad (2019–2023).
  • Semrush – Factores de ranking y exclusión de páginas.
  • Sistrix – Informes de visibilidad e indexación.
  • IndexCheckr – Estudio global sobre indexación (2025).
  • Marie Haynes – Análisis de la limpieza algorítmica de mayo 2025.
  • Search Engine Journal y Search Engine Land – Cobertura de incidencias de indexación.
  • Stan Ventures – Datos sobre indexación y calidad de contenido.
  • JumpFly – Estudios sobre duplicidad y thin content en e-commerce.
  • Comunidad SEO internacional – Casos reportados en foros y conferencias (2019–2025).

Gráficas

Tabla 1. Reglas empíricas sobre indexación y desindexación:

 

ReglaPlazo/UmbralFuente / EstudioExplicación técnicaImpacto práctico en SEO
Regla de los 130 días~130 días sin recrawlAlexis Rylko (2023)Si Google no vuelve a rastrear la URL en ese periodo, la considera caducada y la saca del índice.Importante mantener rastreo frecuente: enlazado interno, sitemap actualizado, señales de actividad.
Regla de los 190 días~190 días sin recrawlEstudios posteriores (2024)Más allá de 190 días sin visitas de Googlebot, la probabilidad de reindexación es de casi cero.Páginas sin señales ni actualizaciones están condenadas a ser olvidadas.
Regla de los 6 meses93,2% indexadas en 6 mesesIndexCheckr (2025, 16M URLs)Si una página no se indexa en ese lapso, lo más probable es que nunca lo haga.Revisar y optimizar cualquier URL no indexada a los 6 meses.
Regla del 20% desindexación eventual21,3% de páginas indexadas terminan fueraIndexCheckr (2025)Google reevalúa constantemente y retira 1 de cada 5 páginas.El índice es volátil: auditar contenido periódicamente para conservar visibilidad.
Regla del 2% en la primera semana~2% se desindexan en 7 díasIndexCheckr (2025)Google hace una “limpieza rápida” tras la indexación inicial.No confiarse en la indexación inmediata: esperar confirmación semanas después.
Regla de la canibalización (canónico único)Sin plazo fijoGary Illyes / John MuellerGoogle solo indexa 1 versión entre duplicados o contenidos muy similares.Consolidar páginas duplicadas, usar canónicos bien definidos, evitar variaciones innecesarias.
Regla del contenido ligero (“thin content”)Variable (meses o incluso semanas)Martin Splitt / casos SEOPáginas pobres, vacías o parafraseadas son removidas progresivamente.Mejorar o eliminar thin content; evitar relleno o reescrituras sin valor.
Regla del pico y caída (noticias)Semanas/meses tras perder vigenciaObservaciones en mediosGoogle indexa rápido noticias frescas, pero las desindexa al perder interés.Mantener vivas noticias clave enlazándolas o creando recopilatorios; asumir que lo efímero caduca.

estudio de indexación