Prise en charge en cours Lun–Ven · 9h–19h
Signaler un incident
PK.BOT PK.CFE

Bloquer GPTBot et les crawlers IA : robots.txt, Cloudflare, Nginx

Bloquer GPTBot et les crawlers IA : robots.txt, Cloudflare, Nginx

Depuis mi-2023, les crawlers des grands modèles de langage aspirent le web à une cadence que les scrapers traditionnels n'atteignaient pas. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl) : chacun peut traverser l'intégralité d'un catalogue e-commerce ou d'un blog en quelques heures. Voici les trois méthodes pour les bloquer, leurs limites techniques, et ce qu'on pose chez nos clients.

Définition en une phrase

Bloquer les crawlers IA consiste à refuser l'accès de bots comme GPTBot, ClaudeBot ou PerplexityBot à votre site, soit par déclaration (robots.txt), soit par règle réseau (Cloudflare, Nginx), pour protéger votre contenu d'une extraction destinée à l'entraînement de modèles IA.

En clair, pour les non-initiés. Ces bots parcourent votre site exactement comme Googlebot, mais leur objectif n'est pas de vous référencer. Ils téléchargent vos textes, vos fiches produit, vos articles pour les intégrer dans les données d'entraînement de ChatGPT, Claude ou Perplexity. Vous ne touchez aucune redevance. Votre contenu, vos prix, vos descriptions sont aspirés et revendus sous forme de réponses IA.

Pourquoi c'est important pour votre site

Le trafic lié aux crawlers IA a augmenté de façon notable depuis 2023. Sur les sites que nous analysons dans le cadre de PK.BOT, les logs montrent des sessions GPTBot ou CCBot qui crawlent plusieurs centaines de pages en quelques minutes, avec des intervalles trop courts pour être humains.

Trois impacts concrets :

  • Propriété intellectuelle. Vos contenus rédactionnels, vos descriptions produit, vos guides techniques deviennent des données d'entraînement sans contrepartie.
  • Charge serveur. Un crawler IA agressif peut générer un pic de requêtes qui dégrade les performances pour vos visiteurs humains, surtout sur un hébergement mutualisé.
  • Avantage concurrentiel. Vos fiches produit, vos tarifs, votre positionnement éditorial alimentent des systèmes qui répondent directement aux questions de vos clients potentiels, sans les envoyer sur votre site.

Les trois méthodes pour bloquer les crawlers IA

Méthode 1 : robots.txt

La plus simple. Vous ajoutez des directives dans votre fichier /robots.txt pour signaler aux crawlers qu'ils ne sont pas les bienvenus.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Omgilibot
Disallow: /

Limite critique : robots.txt est une convention, pas une contrainte technique. Les crawlers bien élevés (GPTBot, ClaudeBot) déclarent le respecter. Un bot malveillant, ou un crawler moins scrupuleux, l'ignore entièrement. C'est une première ligne de déclaration, pas de défense.

Méthode 2 : règle Cloudflare WAF

C'est la méthode que nous préférons. Une règle Cloudflare bloque la connexion au niveau réseau, avant que la requête atteigne votre serveur. Le bot ne voit rien, reçoit un 403, et ne peut pas contourner par robots.txt.

# Règle WAF Cloudflare : bloquer les crawlers IA par User-Agent
(http.user_agent contains "GPTBot") or
(http.user_agent contains "ClaudeBot") or
(http.user_agent contains "PerplexityBot") or
(http.user_agent contains "CCBot") or
(http.user_agent contains "anthropic-ai") or
(http.user_agent contains "cohere-ai") or
(http.user_agent contains "Omgilibot") or
(http.user_agent contains "Bytespider")
Action : Block

Limite : le User-Agent peut être falsifié. Un opérateur de bot déterminé peut se déclarer comme Googlebot ou Chrome et contourner ce filtre. C'est pourquoi on combine cette règle avec un rate limiting sur les patterns de crawl et, quand le plan Cloudflare le permet, le score de bot.

Méthode 3 : blocage Nginx (ou Apache)

Si vous n'utilisez pas Cloudflare, le blocage peut se faire directement au niveau du serveur web.

Nginx :

# Dans le bloc server{} ou http{}
map $http_user_agent $block_ai_bots {
    default         0;
    ~GPTBot         1;
    ~ClaudeBot      1;
    ~PerplexityBot  1;
    ~CCBot          1;
    ~anthropic-ai   1;
    ~cohere-ai      1;
}

if ($block_ai_bots) {
    return 403;
}

Apache (.htaccess) :

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|PerplexityBot|CCBot|anthropic-ai|cohere-ai) [NC]
RewriteRule .* - [F,L]

Limite : même contrainte que Cloudflare sur le User-Agent. Et la règle .htaccess consomme des ressources serveur pour chaque requête, contrairement à Cloudflare qui absorbe le trafic en amont.

Comment Secushot bloque les crawlers IA en intervention

Dans notre pack PK.BOT Blocage bots et scraping IA, la séquence standard est :

  1. Lecture des logs des 7 derniers jours. On identifie les crawlers IA actifs, leur volume de requêtes, les pages les plus ciblées.
  2. Règle Cloudflare WAF par User-Agent (méthode 2 ci-dessus), avec la liste des crawlers connus au moment de l'intervention.
  3. Rate limiting complémentaire sur les patterns de crawl intensif : plus de 30 requêtes par minute depuis la même IP sur du contenu éditorial.
  4. Mise à jour du robots.txt avec les directives Disallow pour les crawlers qui respectent la convention.
  5. Rapport J+7 chiffré : volume de requêtes bloquées par crawler, comparaison avant/après.

La liste des crawlers IA évolue vite. On maintient la règle Cloudflare à jour selon les User-Agents publiés par les labs IA au moment de l'intervention.

Les erreurs qu'on rencontre le plus souvent

1. Compter uniquement sur robots.txt

Nous voyons régulièrement des sites avec un robots.txt bien configuré pour GPTBot mais aucune règle réseau. Le trafic CCBot, Bytespider ou des bots non déclarés continue de passer. robots.txt est un signal, pas un verrou.

2. Bloquer par User-Agent sans surveiller les contournements

Une règle statique qui filtre des User-Agents connus devient obsolète dès qu'un crawler change son identification. On pose la règle et on surveille les logs à J+7 pour détecter les volumes anormaux qui auraient contourné.

3. Bloquer Googlebot par erreur

Une règle trop large qui filtre tout ce qui contient "bot" dans le User-Agent bloque aussi Googlebot, Bingbot, et d'autres crawlers utiles. On cible précisément les User-Agents connus des crawlers IA, pas des patterns génériques.

4. Oublier les sous-domaines

Un blog sur blog.votre-domaine.fr ou un CDN de contenu sur un sous-domaine est souvent oublié dans la configuration. Les crawlers IA ciblent les sous-domaines avec du contenu textuel. On étend les règles à l'ensemble de la zone Cloudflare.

5. Confondre ai.txt et robots.txt

ai.txt est une proposition non standardisée, sans support officiel des crawlers IA majeurs. GPTBot respecte robots.txt, pas ai.txt. On ne mise pas sur des standards non ratifiés pour une protection sérieuse.

Questions fréquentes

GPTBot respecte-t-il vraiment robots.txt ? OpenAI déclare respecter les directives robots.txt pour GPTBot. C'est vrai pour les crawls réguliers. Ce n'est pas vérifiable pour les variantes moins documentées ou les bots tiers qui utilisent les données Common Crawl (CCBot) comme proxy. En pratique, on pose les deux : déclaration robots.txt et règle réseau Cloudflare.

Bloquer les crawlers IA nuit-il au référencement Google ? Non. Googlebot et les crawlers de moteurs de recherche ne sont pas des bots IA au sens de l'entraînement. On peut bloquer GPTBot, ClaudeBot et PerplexityBot sans impacter le SEO. Googlebot est explicitement whitelisté dans nos règles. Voir notre page Cloudflare Bot Management pour les précautions à prendre.

Ces bots sont-ils illégaux ? La question est en cours de tranchage juridique dans plusieurs pays. Techniquement, un crawler qui respecte robots.txt et les conditions d'utilisation agit dans un cadre discutable mais pas clairement illégal. Bloquer ces crawlers est votre droit en tant qu'opérateur de site.

CCBot c'est quoi exactement ? CCBot est le crawler de Common Crawl, une organisation qui archive le web depuis 2008. Ses archives servent de données d'entraînement à de nombreux modèles IA (dont certaines versions de GPT-3). Common Crawl déclare respecter robots.txt. Son volume de crawl est significatif sur les sites à fort contenu textuel.

La règle Cloudflare est-elle incluse dans le plan gratuit ? Le plan Free Cloudflare permet d'écrire des règles WAF Custom Rules pour bloquer par User-Agent. Le nombre de règles custom est limité sur le plan Free [à vérifier par l'équipe : limite exacte Free vs Pro à confirmer avant publication], mais une règle consolidée avec plusieurs User-Agents compte pour une seule.

Pour aller plus loin


Des bots IA aspirent vos contenus ou vos fiches produit ? Notre pack PK.BOT (890 € TTC, livré en 48 h) analyse vos logs, pose les règles Cloudflare ciblées et met à jour votre robots.txt. Rapport chiffré J+7 inclus. Briefer le pack PK.BOT

Dernière mise à jour · 22 avril 2026 ← Retour au lexique