Screaming Frog es una herramienta muy potente para mejorar el SEO de una web, ya que tiene infinitas posibilidades de análisis de problemas que podemos solucionar, clasificándolos según el nivel de gravedad. Una de esas opciones a analizar es el contenido duplicado, y en concreto en este artículo queremos hablarte de la funcionalidad de identificar páginas semánticamente similares.
La herramienta SEO Spider utiliza la inteligencia artificial con LLMs que detectan contenido similar en diferentes URLs de una misma web, ya que es capaz de interpretar conceptos similares con los que podemos estar creando contenido duplicado. Esto nos permite poder fusionar dos o más URLs duplicadas o cambiar el contenido de alguna de ellas para evitar canibalizaciones, que afectarán a la indexación de nuestra web y, por tanto, a nuestro posicionamiento en Google.
Tutorial para configurar Screaming Frog
En este artículo haremos una guía o tutorial de cómo detectar páginas parecidas semánticamente para evitar problemas de indexación o canibalización en nuestra web.
1. Conecta la API de IA
Lo primero que tienes que hacer es configurar la herramienta de Screaming Frog. Para ello tendrás que conectar la API de la IA que quieras utilizar entre Open AI, Gemini, Ollama o Anthropic.
En este caso lo haremos con la API de Gemini, que puedes encontrar en el propio enlace que te da Screaming Frog al seleccionarlo en el modo de configuración (tanto para Gemini como para cualquiera de las otras):
No te olvides de darle a «Conectar API».
2. Añade los embeddings
Una vez conectada, es momento de configurar la API para que nos muestre el contenido semánticamente similar. Para ello, en la pestaña de «Prompt Configuration» o «Configuración de los avisos» en español, le daremos al botón de «Añadir desde biblioteca», que aparece abajo a la derecha.
Entre las opciones escogemos la primera, que usa embeddings de Gemini (incrustraciones/incorporaciones) para detectar contenidos que puedan ser similares en cuanto a significado, aunque estén plasmados con distintas palabras. En el ejemplo que utiliza Google para explicarlo, las frases «Llevé a mi perro al veterinario» y «Llevé a mi gato al veterinario» serán detectadas como similares, ya que el trasfondo es el mismo, que es lo que nos interesa solucionar en los contenidos duplicados.
En este punto te aparecerá un mensaje de error sobre que hay que habilitar el almacenamiento de HTML.
3. Activa el almacenamiento de HTML
Para solucionarlo ve a Configuración del rastreo > Spider > Extracción y selecciona las opciones «Almacenar HTML» y «Almacenar HTML renderizado«, que se utilizará en rastreos de solo texto y rastreos en modo de renderizado JavaScript.
4. Configura la funcionalidad de incrustación
Ve a Configuración > Contenido > Incrustaciones y marca estas tres opciones para habilitar la funcionalidad de detección semántica entre varias URLs:
- Habilitar la funcionalidad de incrustación (por defecto tiene que salirte la de Gemini, ya que la hemos activado previamente)
- Habilitar la similitud semántica
- Habilitar baja relevancia
Si has seleccionado varias API de IA te aparecerán más opciones en el desplegable.
5. Empieza el rastreo
Es momento de que comiences el rastreo indicando la URL de la web que quieres analizar en el crawler. Es importante que esperes hasta que el rastreo y la API esté en un 100%.
6. Completa el análisis del rastreo
Una vez que el rastreo está completado es necesario activar un nuevo análisis de rastreo a partir de las columnas de «Semánticamente similares» y «Contenido de baja relevancia», que te aparecerán en 0% dentro del apartado de «Contenido«:
Para ello ve a la casilla de «Análisis de rastreo» y haz clic en «Empezar«. Te aparecerá una nueva casilla de «Análisis» que también debe completarse al 100%.
Si en un futuro quieres evitar tener que volver a hacer el análisis de rastreo, puedes habilitar que esta opción se haga automáticamente tras el rastreo principal seleccionando el análisis automático en la parte de configuración del «Análisis de rastreo».
Cuando esté todo completado podrás empezar a analizar los datos que da la herramienta.
Análisis de similitud semántica
Con el análisis de rastreo completado podremos ver los datos de las columnas «Semánticamente similares» y «Contenido de baja relevancia«, dentro de los filtros de «Contenido«.
Si quieres exportar todos estos datos solo tendrás que ir a Exportación en bloque > Contenido > Semánticamente similares.
URLs semánticamente similares
En el caso del apartado de «Semánticamente similares» veremos las URLs que son más parecidas entre sí. En la columna de la izquierda se mostrará la URL analizada y en la derecha la más parecida a ella.
También se muestra una puntuación en función del nivel de similitud de las páginas. Este rango se sitúa entre 0 y 1, siendo más similares las URLs cuanto más cerca estén del 1. Screaming Frog considera semánticamente similares las URLs con más de un 0,95 de puntuación (puedes cambiar este umbral en los ajustes de configuración de incrustación).
En el ejemplo que te ponemos abajo puedes ver que la semántica es muy similar entre las URLs, por lo que habría que trazar una estrategia de mejora del contenido para evitar duplicidades que puedan afectar a la indexación SEO:
No obstante, es importante que tomes estos datos teniendo en cuenta las particularidades de cada web o negocio, ya que habrá casos en los que una similitud entre las URLs sea normal y otros en los que pueda ser un problema de canibalización. En este sentido es que revises manualmente el contenido de ambas URLs para determinar si es necesario hacer cambios.
Páginas con contenido de baja relevancia
Este apartado también es bastante interesante, ya que te indica las URLs que, en relación con la temática principal de la web, no albergan contenido similar, algo que puede indicar que se trata de páginas irrelevantes o que habría que ajustar mejor para que se centren en el tema principal de la web.
Este análisis se hace gracias a los embeddings que hemos configurado con la API de IA, que establece una temática principal central de la web y a partir de ahí puntúa cada URL para ver su relación con esta temática central. En este caso el rango está en 0,4, siendo mejor una puntuación más alta, ya que significaría que las URLs tienen relevancia semántica, es decir, relación con la temática de la web en su conjunto.
Detalles de duplicados
Hay otra pestaña de «Detalles de duplicados» en la que podrás ver exactamente cuál es el contenido igual o similar de las URLs en cuestión. Esto facilita mucho ver qué tipo de contenido es para detectar problemas generales. De nuevo, es importante valorar cada caso, ya que habrá frases detectadas como iguales que sean necesarias dentro de la web. Ejemplo:
En el caso del ejemplo es evidente que es el contenido de una caja o recurso que se muestra en varias páginas, y que no tiene que ver con el contenido en sí de la web.
Por cierto, es importante que habilites la pestaña de «Similitud semántica», a la izquierda de «Exportar«, para poder ver estos detalles, ya que si no no te saldrá nada.
Visualizaciones de diagramas
Para ver esta información más visual en su conjunto, puedes utilizar las funcionalidades de la pestaña de «Visualizaciones» de Screaming Frog, en la que podrás seleccionar opciones como gráficos de árbol (con las principales URLs y sus relaciones en el rastreo), diagramas de rastreo o nubes de palabras.
Este tipo de funcionalidades más visuales te permiten ver conjuntos de segmentos relacionados semánticamente y detectar URLs que deberían estar dentro de un grupo pero que por la falta de similitud con el contenido se consideran diferentes.
Detecta duplicidades y mejora tu SEO
Esperamos que esta guía/tutorial de cómo detectar páginas duplicadas o similares semánticamente te ayude a mejorar el marketing de contenidos y el posicionamiento SEO de tu web. Las canibalizaciones y duplicidades de contenido pueden afectar a la indexación de las URLs por parte del algoritmo de Google, ya que la araña las detectará como iguales y, por tanto, no las tendrá en cuenta para mostrarlas en los resultados.
Es importante que verifiques cada caso y ajustes las páginas con un claro objetivo entre sí: elimina las que consideres que son irrelevantes o crea nuevo contenido para enfocar cada una a su propia meta.
Y si necesitas ayuda con la estrategia de marketing de tu negocio online, no dudes en contactar con Agencia de SEO para una auditoría SEO de tu web en la que detectemos cualquier problema que impida su crecimiento.

Periodista especializada y apasionada por el SEO desde que lo descubrió hace unos años. Amante de la música, del cine (tiene una web propia) y de los libros.










