This website uses cookies

Our website, platform and/or any sub domains use cookies to understand how you use our services, and to improve both your experience and our marketing relevance.

Cómo bloquear los rastreadores de IA que ralentizan tu sitio web y malgastan ancho de banda

Updated on September 3, 2025

12 Min Read

TL;DR: No puedes bloquear completamente los scrapers de IA, pero robots.txt, metaetiquetas y el control de bots de Cloudflare ayudan a limitarlos. Los usuarios de Cloudways disponen de bloqueo de bots integrado a través de Imunify360 WAF.

No todo el tráfico de un sitio web es bueno. Mientras los visitantes humanos interactúan con tu contenido, los rastreadores de IA escanean silenciosamente tus páginas, a menudo sin tu permiso. Estos robots, como GPTBot, Applebot, CCBot, Google-Extended y Bytespider de OpenAI, están diseñados para recopilar datos para modelos de IA y herramientas de búsqueda.

Por supuesto, cuando los robots de IA rastrean tu sitio web, pueden incluir tu contenido en las respuestas generadas por la IA en plataformas como ChatGPT. Pero cuando demasiados de estos robots llegan a tu sitio a la vez, no sólo hojean tu contenido, sino que consumen ancho de banda y ralentizan todo para los visitantes reales.

No es de extrañar, por tanto, que más del 35% de los 1.000 sitios web más importantes del mundo estén bloqueando GPTBot, según datos de Originality.ai. Los propietarios de sitios web están empezando a contraatacar, poniendo límites a la forma en que se accede a sus contenidos.

Si estás dispuesto a hacer lo mismo, esta guía desglosa tres formas fáciles y eficaces de impedir que los robots de IA no deseados mermen el rendimiento de tu sitio.

Pero antes de hablar de cómo bloquear el tráfico de IA de tu sitio, vamos a entrar en qué son los robots de IA, sus tipos y qué son los agentes de usuario.

¿Qué son los robots rastreadores de IA?

Los robots rastreadores de IA son programas automatizados que visitan sitios web para recopilar contenidos. Estos datos se utilizan para entrenar grandes modelos lingüísticos (LLM ) que se emplean en herramientas como los chatbots y la búsqueda impulsada por IA.

A diferencia de los rastreadores tradicionales, como Googlebot, que indexan contenidos para los resultados de las búsquedas, los rastreadores de IA se centran en recopilar volúmenes masivos de contenidos para mejorar la forma en que la IA entiende y responde al lenguaje.

Y su presencia está creciendo rápidamente. Según los datos de tráfico de la red de Vercel, los rastreadores de IA son ahora responsables de una gran parte de las solicitudes automatizadas que llegan a su infraestructura.

En sólo un mes, GPTBot de OpenAI realizó 569 millones de búsquedas, seguido de Claude de Anthropic, con 370 millones. AppleBot registró 314 millones, mientras que PerplexityBot sumó otros 24,4 millones.

Aunque estas cifras todavía no rivalizan con los 4.500 millones de peticiones de Googlebot en Gemini y Search, el volumen combinado de estos rastreadores de IA asciende a casi 1.300 millones de búsquedas, o aproximadamente el 28% de lo que generó Googlebot, según los datos de tráfico de Vercel.

El aumento de este tipo de tráfico no se está ralentizando. El DV Fraud Lab informó de que la actividad de los bots casi se duplicó en el segundo semestre de 2024, y sólo en diciembre se registró un aumento del 70% en comparación con el mismo mes del año anterior, superando los 2.000 millones de solicitudes de anuncios.

A medida que aparecen más rastreadores de IA, consumen el ancho de banda de un sitio. Esa carga adicional puede ralentizar las cosas para los visitantes reales.

¿Qué es un Agente de Usuario?

Después de hablar de los rastreadores de IA, puede que te preguntes cómo saben los sitios web qué rastreador los está visitando. Por eso es importante hablar de los agentes de usuario.

Un agente de usuario es como una etiqueta de nombre para cualquier software que se conecte a un sitio web. Indica al sitio qué tipo de programa está realizando la solicitud, ya sea un navegador como Chrome o Firefox, o un bot como GPTBot o Googlebot. Cada vez que un rastreador o navegador carga una página, envía una pequeña cadena de texto que se identifica a sí mismo. Ese es el agente de usuario.

Por ejemplo, si navegas con Chrome, tu navegador enviará una cadena de agente de usuario diciendo que es Chrome, qué versión es y en qué sistema estás. Los rastreadores de IA hacen lo mismo, lo que ayuda a los propietarios de sitios web a comprender quién -o qué- visita su sitio.

Conocer el agente de usuario puede ayudar a los propietarios del sitio a bloquear los rastreadores que consumen demasiados recursos.

Tipos de robots de IA

En la actualidad, las empresas confían en distintos tipos de robots de IA para recopilar y procesar información en línea. Aquí tienes un desglose de los principales tipos con los que te encontrarás:

Tipo de bot Qué hacen Ejemplos
Chat Bots Diseñados para responder a las consultas de los usuarios mediante IA. Se basan en contenidos con los que han sido entrenados. ChatGPT-User (OpenAI), Meta-ExternalFetcher
Recopiladores de datos Escanea sitios web para recopilar grandes conjuntos de contenido escrito para entrenar modelos de IA. Applebot, Common Crawl, ClaudeBot
Rastreadores de búsqueda Analizan las páginas en busca de palabras clave, enlaces y estructura para ayudar a potenciar las herramientas de búsqueda de inteligencia artificial. PerplexityBot, BingPreview

¿Por qué podrías querer bloquear los rastreadores de IA?

Como ya se ha mencionado, los rastreadores de IA no visitan tu sitio una sola vez y se marchan sin hacer ruido: a menudo escanean varias páginas, extrayendo grandes cantidades de contenido. Esta actividad repetida puede consumir ancho de banda y ralentizar el funcionamiento, sobre todo si tu servidor no está preparado para soportar un flujo constante de visitas automáticas.

Pero esa no es la única preocupación. Cuando estos robots raspan tu contenido, a menudo acaban alimentando herramientas de IA, como las funciones de búsqueda de IA o los resúmenes que se muestran directamente en los resultados de búsqueda.

¿Cuál es el problema?

Si los usuarios ya están viendo tu contenido resumido o reempaquetado en otro sitio, puede que nunca hagan clic en tu sitio. Así que, aunque tu contenido sea sólido, tu tráfico puede verse afectado.

Bloquear los rastreadores de la IA te ofrece una forma de recuperar un poco el control, impidiendo que tu contenido se utilice donde tú no querías y, al mismo tiempo, ayudando a proteger los recursos de tu servidor.

La velocidad importa. El alojamiento inteligente también.

No dejes que los robots arrastren tu sitio. Consigue tiempos de carga más rápidos, mejor control y un rendimiento fiable con nuestro Alojamiento para WordPress. Creado para la velocidad y la tranquilidad.

¿Bloquear los robots de IA perjudicará mi posicionamiento en Google?

No, bloquear los rastreadores de IA no afecta a la clasificación de tu sitio en la Búsqueda normal de Google. Estos robots son diferentes de Googlebot, que es el responsable de indexar tus páginas. Mientras Googlebot no esté bloqueado, tu contenido seguirá apareciendo en los resultados de búsqueda como lo hace normalmente. Bloquear los rastreadores de IA sólo impide que utilicen tu contenido para entrenar modelos lingüísticos o elaborar resúmenes de IA.

Cómo bloquear los rastreadores de IA [4 métodos]

Hay varias formas de mantener a los robots de IA alejados de tu sitio. Puedes establecer reglas en tu robots.txt, bloquear IPs utilizando un cortafuegos, o utilizar una CDN como Cloudflare, que ofrece el modo Bot Fight y el bloqueador AI Scrapers y Crawlers.

Si utilizas el cloud hosting gestionado de Cloudways, la protección contra bots se gestiona por ti como parte de la configuración totalmente gestionada, sin necesidad de esfuerzos manuales.

Veamos ahora cada opción con un poco más de detalle.

Método#1: Utilizar Robots.txt (Método manual)

Utiliza Robots.txt

La forma más sencilla de bloquear los robots de IA es añadir una regla breve a tu archivo robots.txt:

User-agent: nombre-del-bot

No permitir: /

Por ejemplo, para bloquear el rastreador de OpenAI, escribirías:

Agente de usuario: GPTBot

No permitir: /

Repasemos rápidamente cómo crear y subir este archivo. Utilizaré FileZilla para este recorrido, aunque hay muchas otras formas de acceder a los archivos de tu sitio.

Pasos para configurar un archivo Robots.txt con FileZilla

1. Conéctate a tu sitio web

  • Abre FileZilla y conéctate utilizando tus credenciales FTP. Estoy utilizando Cloudways, así que navegaré a Gestión de Servidores y seleccionaré Credenciales Maestras para obtener acceso a tu SSH/SFTP. Introduciré mis credenciales para iniciar sesión.

Conéctate a tu sitio web

  • Una vez conectado, ve al directorio raíz de tu sitio web, que suele llamarse public_html o puede ser simplemente el nombre de tu dominio.

2. Crea el Archivo

  • Haz clic con el botón derecho del ratón en el área de archivos y crea un nuevo archivo llamado robots.txt. Si ya tienes uno, haz clic con el botón derecho y elige «Ver/Editar» para abrirlo. Ya tengo un archivo robots.txt, así que lo editaré.

Crear el archivo

3. Añade las Reglas

Abre el archivo en un editor de texto básico como el Bloc de Notas. A continuación, escribe la regla así

Usuario-agente: BotName

No permitir: /

Sustituye BotName por el nombre del bot que quieras bloquear. Por ejemplo, para bloquear GPTBot, sólo tienes que escribir

Agente de usuario: GPTBot

No permitir: /
<.pre>

4. Guardar y cargar

Cuando hayas terminado, sube la versión actualizada del archivo a tu servidor.

5. Pruébalo

Para comprobar si está activo, ve a tu navegador y escribe: tudominio.com/robots.txt. Si se carga, ya está.

¿Cómo bloquear los robots de IA más comunes?

En el ejemplo anterior, vimos cómo bloquear sólo un rastreador (GPTBot de OpenAI). Veamos ahora cómo bloquear los robots rastreadores de IA más comunes:

1. ChatGPT-Usuario

Qué hace: Rastrea sitios web cuando los usuarios de ChatGPT solicitan resúmenes o citas. Cómo bloquear:

Agente de usuario: ChatGPT-Usuario

No permitir: /

2. Metabuscador externo

Qué hace: Obtiene contenido web para las herramientas de IA de Meta (Facebook, Instagram).

Cómo bloquear:

Agente de usuario: Meta-ExternalFetcher

No permitir: /

3. ClaudeBot

Qué hace: Recoge datos para entrenar a la IA Claude de Anthropic.

Cómo bloquear:

Usuario-agente: ClaudeBot

No permitir: /

4. GPTBot

Qué hace: Raspa contenido web para entrenar los modelos de OpenAI como ChatGPT.

Cómo bloquear:

Agente de usuario: GPTBot

No permitir: /

5. Google-Extendido

Qué hace: Recoge datos para los productos de IA de Google (Gemini, Vertex AI).

Cómo bloquear:

Agente de usuario: Google-Extended

No permitir: /

6. Bytespider

Qué hace: Rastrea contenidos para la empresa matriz de TikTok (ByteDance).

Cómo bloquear:

Agente de usuario: Bytespider

No permitir: /

7. PerplexityBot

Qué hace: Indexa páginas web para las respuestas de búsqueda de Perplexity AI.

Cómo bloquear:

Agente de usuario: PerplexityBot

No permitir: /

8. Applebot-Extendido

Qué hace: Entrena los modelos de IA de Apple (Siri, Inteligencia de Apple).

Cómo bloquear:

Agente de usuario: Applebot-Extended

No permitir: /

9. Amazonbot

Qué hace: Potencia los resultados de búsqueda de Alexa.

Cómo bloquear:

Usuario-agente: Amazonbot

No permitir: /

10. Diffbot

Qué hace: Extrae y vende datos de sitios web para el entrenamiento de IA.

Cómo bloquear:

Agente de usuario: Diffbot

No permitir: /

11. CCBot

Qué hace: Crea conjuntos de datos abiertos para el entrenamiento de la IA (Common Crawl).

Cómo bloquear:

Agente de usuario: CCBot

No permitir: /

12. Chatarra

Qué hace: Rascador agresivo utilizado a menudo para conjuntos de datos.

Cómo bloquear:

Agente de usuario: Scrapy

No permitir: /

13. YouBot

Qué hace: Rastrea los resultados de búsqueda de la IA de You.com.

Cómo bloquear:

Agente de usuario: YouBot

No permitir: /

14. OAI-SearchBot

Qué hace: Indexa contenidos para el SearchGPT de OpenAI.

Cómo bloquear:

Agente de usuario: OAI-SearchBot

No permitir: /

15. FacebookBot

Qué hace: Entrena la IA de reconocimiento de voz de Meta.

Cómo bloquear:

Agente de usuario: FacebookBot

No permitir: /

16. Applebot

Qué hace: Indexa contenido web para las respuestas de Siri.

Cómo bloquear:

Agente de usuario: Applebot

No permitir: /

17. Meta-Agente externo

Qué hace: Recoge datos para los proyectos de IA de Meta.

Cómo bloquear:

Agente de usuario: Meta-ExternalAgent

No permitir: /

18. Omgili

Qué hace: Vende datos rastreados para entrenamiento de IA(Webz.io).

Cómo bloquear:

User-agent: omgili

No permitir: /

19. Antrópica-AI

Qué hace: Sospechoso rastreador de los modelos de IA de Anthropic.

Cómo bloquear:

Usuario-agente: anthropic-ai

No permitir: /

20. Claude-Web

Qué hace: Rastreador no confirmado para la IA Claude.

Cómo bloquear:

Agente de usuario: Claude-Web

No permitir: /

21. Cohere-AI

Qué hace: Rastreos probables para las herramientas de IA de Cohere.

Cómo bloquear:

User-agent: cohere-ai

No permitir: /

22. Ai2Bot

Qué hace: Rastrea dominios para entrenar modelos lingüísticos.

Cómo bloquear:

Agente de usuario: Ai2Bot

No permitir: /

23. Ai2Bot-Dolma

Qué hace: Recoge datos de la web para el entrenamiento de la IA (Ai2).

Cómo bloquear:

Agente de usuario: Ai2Bot-Dolma

No permitir: /

24. FriendlyCrawler

Para qué sirve: Finalidad desconocida, posiblemente para experimentos de ML.

Cómo bloquear:

Agente de usuario: FriendlyCrawler

No permitir: /

25. Timpibot

Qué hace: Extrae datos para el entrenamiento de modelos de IA (Timpi).

Cómo bloquear:

Agente de usuario: Timpibot

No permitir: /

26. Webzio-Extendido

Qué hace: Vende datos rastreados para entrenamiento de IA(Webz.io).

Cómo bloquear:

Agente de usuario: Webzio-Extended

No permitir: /

Cómo bloquear todo a la vez

Para bloquear todos los rastreadores (incluidos los robots que no son de AI), añade esto a robots.txt:

Agente de usuario: *

No permitir: /

Método#2: Utiliza un cortafuegos

Un cortafuegos te da el control directo sobre lo que llega a tu sitio -y lo que no-. Una forma de ralentizar o bloquear los rastreadores de IA es identificar y denegar el acceso a las direcciones IP conocidas que utilizan. No es a prueba de balas, ya que los bots a menudo rotan de IP, pero es una primera capa de defensa decente.

También puedes configurar tu cortafuegos para que active CAPTCHAs para el tráfico sospechoso. Esto evita que las herramientas automatizadas lo eludan, ayudándote a filtrar las visitas no humanas antes de que lleguen a tu sitio.

Si alojas tu sitio en Cloudways, ya estás cubierto con un cortafuegos de aplicaciones web (WAF) gestionado por Imunify360. Funciona en segundo plano para bloquear automáticamente los bots maliciosos. Hablaremos más sobre esto más adelante.

Método#3: Utilizar una CDN (Opción automatizada)

Además de acelerar tu sitio, las CDN también detienen a los bots. En Cloudways, nos hemos asociado con Cloudflare para ofrecer su complemento Enterprise por sólo 4,99 $ al mes. Esto supone una enorme rebaja respecto al precio habitual de más de 200 $ por el mismo plan.

Como he mencionado antes, Cloudflare incluye dos funciones clave para bloquear el tráfico bot no deseado: Modo de lucha contra bots y AI Scrapers y Crawlers. Si utilizas Cloudflare directamente, puedes activarlas desde la sección Seguridad > Bots de tu panel de control de Cloudflare.

Bots de seguridad

Pero si utilizas el complemento Cloudflare Enterprise a través de Cloudways, nosotros nos encargamos de todo por ti. La configuración está totalmente gestionada, lo que significa que supervisamos y bloqueamos activamente los bots sospechosos desde el backend; no tendrás que preocuparte de hacer nada desde tu lado.

Método nº 4: Utiliza Cloudways para impedir que los robots de inteligencia artificial rastreen tu sitio (opción sin intervención)

En Cloudways, nuestro cortafuegos de aplicaciones web (WAF) gestionado, desarrollado por Imunify360, está diseñado para mantener alejados a los bots sin entorpecer el paso de los visitantes reales.

Funciona utilizando un Desafío Anti-Bot que filtra el tráfico no deseado antes de que llegue a tu sitio.

La mayoría de los bots fallan en este paso y nunca llegan a tu WordPress, Drupal u otras aplicaciones web, ahorrando recursos de tu servidor y protegiéndote del spam, los escaneos y los ataques automatizados.

Los usuarios legítimos ni siquiera notarán nada. Recibirán tu contenido de inmediato. El sistema comprueba silenciosamente la compatibilidad básica del navegador, como JavaScript y cookies, para confirmar que se trata de un humano.

Los buenos bots, como los de Google, se quedan tranquilos. Lo mejor es que Cloudways WAF viene gratis con nuestro plan Flexible.

¿Quieres más control?

Puedes bloquear manualmente IPs o países directamente desde el panel de control de Cloudways.

Bloque IP

Y si quieres bloquear aún más las cosas, combinándolo con nuestro complemento Cloudflare Enterprise dispondrás de una capa de cortafuegos adicional que detecta todo tipo de tráfico de robots.

Conclusión

Todavía no es posible bloquear totalmente el acceso de la IA a tu contenido, pero puedes reducir el número de robots de IA que acceden a tu sitio. Empezar con robots.txt es un buen paso, ya que muchos rastreadores de IA siguen las reglas que definas en tu archivo.

Una buena CDN como Cloudflare también ayuda, especialmente con sus funciones de bloqueo de bots que mantienen fuera el tráfico de baja calidad.

Los cortafuegos también te permiten controlar quién entra, y cuando se combinan con CAPTCHA, son bastante eficaces para distinguir a los humanos de los robots.

Y si utilizas Cloudways, nuestro WAF gestionado (ofrecido gratuitamente con el plan Cloudways Flexible), desarrollado por Imunify360, bloquea los bots de IA entre bastidores, sin necesidad de configuración manual.

Combinados, estos pasos te ayudan a reducir los scrapers no deseados, ahorrar ancho de banda y bloquear mejor la IA para que no consuma los recursos de tu sitio.

Preguntas frecuentes

1. ¿Por qué debes bloquear los rastreadores de IA de tu sitio web?
Bloquear los rastreadores de IA puede ayudar a proteger tu contenido contra el scraping o la copia. Evita que los datos de tu sitio web se recopilen para usos no autorizados, como el entrenamiento de modelos de IA. Bloquear los rastreadores también reduce el riesgo de que aumente la carga del servidor y garantiza un mejor rendimiento del sitio web.

2. ¿El bloqueo de los rastreadores de IA puede afectar a mi SEO?

Bloquear rastreadores de IA no suele afectar al SEO, siempre que no estés bloqueando robots legítimos de motores de búsqueda como Googlebot. Sin embargo, bloquear demasiados rastreadores puede impedir que los motores de búsqueda indexen tus páginas, lo que puede afectar a la visibilidad. Asegúrate de bloquear sólo los rastreadores no deseados para evitar problemas de SEO.

3. ¿Son perjudiciales todos los rastreadores de IA?
No todos los rastreadores de IA son perjudiciales. Los motores de búsqueda como Google utilizan rastreadores para indexar tu sitio web y mejorar su visibilidad. Sin embargo, algunos rastreadores de IA pueden raspar contenido o saturar tu servidor, lo que puede afectar negativamente al rendimiento y la seguridad de tu sitio. Es importante diferenciar entre rastreadores útiles y dañinos.

4. ¿Cómo puedo saber si los rastreadores de IA acceden a mi sitio?
Puedes comprobar si los rastreadores de IA acceden a tu sitio revisando los registros de tu servidor. Estos registros muestran detalles de todas las solicitudes realizadas a tu sitio web, incluidas las direcciones IP y los agentes de usuario de los rastreadores. También puedes utilizar herramientas como Google Search Console para supervisar la actividad de los robots e identificar los rastreadores no deseados.

Share your opinion in the comment section. COMMENT NOW

Share This Article

Abdul Rehman

Abdul es un experto en tecnología, aficionado al café y al marketing creativo al que le encanta estar al día de las últimas actualizaciones de software y aparatos tecnológicos. También es un hábil escritor técnico capaz de explicar conceptos complejos de forma sencilla para un público amplio. Abdul disfruta compartiendo sus conocimientos sobre el sector de la Nube a través de manuales de usuario, documentación y entradas de blog.

×

Webinar: How to Get 100% Scores on Core Web Vitals

Join Joe Williams & Aleksandar Savkovic on 29th of March, 2021.

Do you like what you read?

Get the Latest Updates

Share Your Feedback

Please insert Content

Thank you for your feedback!

Do you like what you read?

Get the Latest Updates

Share Your Feedback

Please insert Content

Thank you for your feedback!

¿Quieres experimentar la plataforma de Cloudways en todo su esplendor?

Realice una visita guiada GRATUITA de Cloudways y compruebe usted mismo lo fácil que es administrar su servidor y sus aplicaciones en la plataforma de alojamiento en la nube líder.

Iniciar mi recorrido