Las herramientas de inteligencia artificial avanzan a pasos agigantados, y es tal la competencia que hay entre unos modelos y otros que necesitan alimentarse constantemente de nueva información, lo más actualizada posible. Para ello, herramientas como ChatGPT, Claude o Perplexity utilizan crawlers que rastrean multitud de webs para entrenar a sus modelos y enriquecerlos lo mejor posible.
Esto ha dado lugar a un gran debate sobre la propiedad intelectual, la privacidad y los datos a los que acceden los bots, con información que contiene derechos de autor y que las IA están utilizando en sus modelos. De ahí surge que muchos propietarios de webs quieran averiguar si su sitio permite el rastreo de crawlers de IA, aunque todo tiene sus matices. Si bloqueas los rastreos de la IA, probablemente pierdas oportunidades de visibilidad, ya que los buscadores y chats con inteligencia artificial se están convirtiendo en nuevas formas de búsqueda para los usuarios.
Sea para bloquear o desbloquear el acceso a estos bots en tu web según tus objetivos, vamos a mencionar una herramienta con las que puedes ver fácilmente y de manera gratuita si los bots han visitado tu web, y cómo bloquearlos o permitirles el acceso según el caso.

AI Bot Access Analyzer
Una de estas herramientas es AI Bot Access Analyzer, de Max Braglia, que te permite ver de manera gratuita (y rápida) qué bots tienen permitido el acceso a tu web. Esta herramienta te muestra datos de diferentes bots de IA:
- OAI-SearchBot (OpenAI), el botón de búsqueda en vivo dentro de ChatGPT.
- ChatGPT-User (OpenAI), el bot encargado de buscar esos datos directamente en internet cuando consultas a ChatGPT.
- GPT-bot (OpenAI), que rastrea webs para enriquecer el modelo de IA.
- ClaudeBot (Anthropic), similar a GPT-bot, que crawlea las webs para entrenar el modelo.
- Claude-User (Anthropic), que al igual que ChatGPT-User busca en internet en tiempo real cuando los usuarios hacen una consulta.
- Claude-SearchBot (Anthropic).
- Perplexity-User (Perplexity), que visita las webs en tiempo real.
- PerplexityBot (Perplexity): rastrea webs que muestra como las fuentes utilizadas en las respuestas.
El uso de la herramienta es muy sencillo: simplemente tienes que indicar la URL de tu sitio web y te mostrará si estos bots tienen permitido o no el rastreo de tu sitio.

Te ponemos un ejemplo a modo de muestra:

En este caso solo está permitido el acceso a los bots Claude-User y Perplexity-User, los demás están bloqueados.
Además de los bots mencionados anteriormente, existen otros crawlers de IA como AmazonBot (para entrenar a asistentes como Alexa), Applebot (rastrea para Siri, Safari y la IA de Apple), Bytespider, Meta-ExternalAgent (LLaMA y Meta AI) o Google-Extended (Bard/Gemini).
Oportunidad para los medios de comunicación
Como mencionábamos antes, bloquear a los bots de IA no siempre es la mejor opción, ya que de esta manera estás impidiendo que tu web pueda aparecer como fuente dentro de las búsquedas de los usuarios en los chats de inteligencia artificial, y por tanto dejando ese espacio para otros sitios de la competencia.
Es algo que podemos ver claramente si analizamos las webs de medios de comunicación, como El País:

En este caso no hay lugar a dudas: el medio prefiere que los bots de inteligencia artificial crawleen la web, ya que es una oportunidad para aparecer en sus chats. Veamos el caso de El Mundo, que no sabemos si conscientemente o no, bloquean el acceso del bot de OpenAI:

Caso del diario ABC:

Y, por último, elDiario.es:

En general podemos observar que los medios permiten el rastreo de la IA, probablemente por lo que comentamos de no perder visibilidad.
Forma de trabajar la estrategia de marca
Aunque muchas de las respuestas que muestren a los medios como fuente no traigan consigo visitas directas de los usuarios a la web, en algunos casos pueden llevar tráfico que de otra manera no se hubiera generado, y en otros casos puede formar parte de una estrategia de marca en la que los usuarios vayan confiando cada vez más en una fuente fiable que suele aparecer en las respuestas de los chatbots.
Un ejemplo claro sería este:

Al preguntar a ChatGPT por las noticias de actualidad hace una búsqueda en tiempo real y muestra como resultado tres medios de comunicación, que al analizar con la herramienta AI Bot Access Analyzer vemos que tienen permitido el rastreo a todos los bots de IA. Si el acceso a la web estuviera bloqueado, nunca aparecerían en este tipo resultados.
Y al igual que ocurre con medios de comunicación puede ocurrir con e-commerce si los usuarios hacen búsquedas sobre compras, productos o servicios concretos, por lo que valora mucho tu estrategia antes de bloquear el rastreo a los crawlers de IA.
Cloudflare Bot Management
Esta herramienta de Cloudflare permite bloquear o permitir bots que acceden a nuestra web, con el objetivo de evitar ataques DDoS o cualquier otra acción que pueda resultar maliciosa. En el caso de los crawlers de IA, también se puede bloquear el acceso.
Recuerda lo que hemos mencionado y decide qué opción es mejor para tu proyecto. La inteligencia artificial, aunque a veces se presenta como perjudicial para el mundo del SEO o marketing digital, puede sernos también de mucha utilidad según en qué contextos. Por ejemplo, en Agencia de SEO te recomendamos nuestra guía de cómo identificar contenido duplicado con Screaming Frog, una forma de configurar la herramienta con la API de OpenAI u otra IA para que detecte contenido similar para Google y poder mejorar el EEAT de nuestra web. También nuestro post con 12 herramientas para crear fotos con IA gratis.
Las posibilidades son infinitas y hay que ver a la inteligencia artificial como un apoyo, no como un enemigo, sobre todo si hablamos de mejorar el posicionamiento SEO de nuestra web. El rastreo de crawlers con IA es solo un ejemplo más de que en cualquier contexto podemos idear una buena estrategia para no perder tráfico y visibilidad online.

Periodista especializada y apasionada por el SEO desde que lo descubrió hace unos años. Amante de la música, del cine (tiene una web propia) y de los libros.
