# Servir du Markdown aux crawlers IA : est-ce du cloaking ?

**Auteur:** Sebastien Chaffer  
**Publié:** 2026-06-12T13:15:17+02:00  
**URL:** https://wordpress-freelance.com/articles/markdown-aux-crawlers-ia-cloaking/  
**Catégories:** Plugin SEO WordPress

---

Quand j’ai présenté [**WS Markdown for Bots**](https://wordpress-freelance.com/articles/servir-markdown-aux-ia-wordpress/) à des confrères SEO la semaine dernière, la question est tombée directement : *« Sébastien, tu sers du Markdown à GPTBot et du HTML aux humains. Ce n’est pas du cloaking ? »* Question légitime. Voici l’analyse complète, avec les sources et les garde-fous.

## Ce que Google appelle cloaking

La définition officielle des Spam Policies est précise. Le cloaking interdit suppose **trois conditions cumulatives** : une différence de contenu entre la version servie au robot et celle servie aux humains, une différenciation ciblée sur Googlebot spécifiquement (par User-Agent ou IP), et un intent manipulatoire vis-à-vis du moteur de recherche.

Si l’une des trois manque, ce n’est pas du cloaking au sens réglementaire. Dans le cas du plugin, **les trois manquent**.

## Pourquoi ce mécanisme n’est pas du cloaking

### Googlebot reçoit le HTML normal

Point central. Le plugin ne sert pas du Markdown à Googlebot. Le crawler d’indexation classique de Google reçoit la même page HTML que n’importe quel visiteur humain. Le Markdown est servi uniquement aux crawlers d’IA générative : `GPTBot`, `ClaudeBot`, `PerplexityBot`, `Google-Extended`, etc.

Google-Extended est **explicitement séparé** de Googlebot depuis septembre 2023. C’est un crawler distinct, gérable indépendamment via `robots.txt`, qui n’a aucune influence sur le ranking Google Search. Bloquer Google-Extended n’a aucun impact sur le SEO classique. Lui servir un format différent ne touche pas Googlebot. C’est précisément cette séparation qui rend l’architecture saine.

### Le contenu sémantique est identique

Ce n’est pas une substitution de contenu, c’est une **transformation de format**. Mêmes titres, mêmes paragraphes, même hiérarchie d’information, mêmes liens, mêmes images. Juste un container différent. C’est l’équivalent de servir un PDF au lieu d’un HTML, ou une version AMP au lieu d’une version desktop. Ces pratiques ont été validées par Google depuis plus d’une décennie.

### Aucun intent manipulatoire

Le plugin ne bourre pas le Markdown de mots-clés invisibles dans le HTML. Il ne triche pas sur le ranking. Il rend le contenu plus lisible pour les IA, point. L’objectif est l’inverse du cloaking historique : servir aux crawlers la version la plus propre et la plus structurée du contenu pour qu’ils le **comprennent et le citent correctement**.

## Le précédent jurisprudentiel

Google a reconnu plusieurs cas légitimes de servir des contenus adaptés selon l’agent client : format compressé (Brotli, gzip) selon les capacités du navigateur, version mobile vs desktop avant l’ère du responsive, AMP servant du HTML allégé aux bots AMP, Markdown servi via header `Accept: text/markdown` actuellement en discussion dans les groupes W3C/IETF.

La règle officielle de Google tient en une phrase : *« Show the same content to users and to Googlebot. Differentiating based on User-Agent for purposes other than manipulating search rankings is acceptable. »*

Le test n’est pas « est-ce que tu différencies », c’est « est-ce que tu différencies **pour manipuler le ranking** ».

## Position de Google sur les crawlers IA

Sur le sujet précis de servir un contenu différent aux AI crawlers, Google n’a publié aucune position défavorable. Au contraire : Google-Extended a été créé en septembre 2023 pour permettre aux webmasters de gérer différemment l’accès des IA. Les recommandations officielles de 2024 traitent les crawlers IA comme une catégorie distincte. Le standard `llmstxt.org` a été mentionné positivement par Gary Illyes et John Mueller en 2025.

Si Google considérait que servir du Markdown à GPTBot était du cloaking, une annonce publique aurait suivi vu l’ampleur du sujet. Aucun signal en ce sens à ce jour.

![statistiques crawlers IA WS Markdown for Bots adoption 2026](https://wordpress-freelance.com/wp-content/uploads/2026/06/markdown-statistiques-scaled.webp "Servir du Markdown aux crawlers IA : est-ce du cloaking ? 1")

## Le risque résiduel et ses garde-fous

Le risque n’est pas nul à 100%. Deux scénarios théoriques et comment ils sont neutralisés.

### Scénario 1 : un humain confondu avec un bot

Un humain pourrait avoir un User-Agent contenant accidentellement le pattern `ClaudeBot` ou `GPTBot`, typiquement un script `curl` mal nommé ou un monitoring d’entreprise. Il recevrait du Markdown au lieu du HTML attendu. Ce n’est pas une violation Google, mais c’est une dégradation de l’expérience. **Mitigation déjà en place** : blacklist UA configurable dans les réglages du plugin, et `X-Robots-Tag: noindex` sur toutes les réponses Markdown.

### Scénario 2 : Google fusionne Google-Extended et Googlebot

Si Google décidait un jour de fusionner les deux crawlers, le plugin servirait du Markdown à Googlebot par accident. Risque sur le ranking : non nul. **Trois lignes de défense sur chaque réponse Markdown** :

```
X-Robots-Tag: noindex
Link: <canonical-html-url>; rel="canonical"
Content-Type: text/markdown
```

Le `noindex` empêche l’indexation même si la réponse est ingérée. Le `canonical` renvoie l’autorité vers la version HTML. Le `Content-Type` signale explicitement un format alternatif. Les URLs `.md` ne figurent pas dans le sitemap.xml et n’ont pas de lien interne crawlable.

## Tableau de risque

| Risque | Évaluation | Confiance |
| --- | --- | --- |
| Pénalité Google Search ranking | Quasi nul — pas de différenciation côté Googlebot | Haute |
| Pénalité Google Discover / News | Nul — mêmes mécanismes que le ranking | Haute |
| Risque réputationnel SEO community | Très faible — aligné avec un standard reconnu | Haute |
| Changement de position Google dans le futur | Possible mais maîtrisé — désactivable en un clic | Probable |
| Inquiétude d’un client | Faible avec un peu de pédagogie | Haute |

## Comment l’expliquer à un client

> Le plugin sert le même contenu sémantique à tous les visiteurs, humains et bots. Il transforme le format de présentation, HTML enrichi pour les humains et Markdown structuré pour les IA, selon ce que chaque visiteur peut traiter efficacement. Google Search n’est jamais affecté. Les réponses Markdown sont marquées noindex avec un canonical vers la version HTML. Le mécanisme est aligné avec le standard llmstxt.org adopté par Anthropic, Stripe, Mintlify et plus de 5 000 sites.

## Trois optimisations pour aller plus loin

1. **Documenter le comportement dans robots.txt** — ajouter un commentaire signalant que les URLs .md ne sont pas indexables et que la détection User-Agent s’applique uniquement aux crawlers IA listés.
2. **Mentionner le mécanisme dans la documentation du [plugin SEO WordPress](https://wordpress-freelance.com/expert-wordpress/plugin-seo-wordpress/)** — un encart explicatif qui coupe court aux questions avant qu’elles soient posées.
3. **Mode conservatif optionnel** — désactiver la détection UA et garder uniquement le suffixe .md explicite, pour les sites particulièrement frileux (juridique, médical).

## Verdict

Aucun signal n’indique que servir du Markdown aux AI crawlers via détection User-Agent sera considéré comme du cloaking par Google, ni maintenant ni à moyen terme. Le mécanisme est conforme à l’esprit et à la lettre des Spam Policies. L’architecture est volontairement défensive : `noindex`, `canonical`, sitemap propre, blacklist UA configurable, désactivation possible en un clic.

Et surtout, il répond à un besoin réel : **les IA ingèrent ton contenu différemment des humains**. Sans Markdown propre, elles voient du bruit. Avec, elles te citent correctement. Le SEO d’hier optimisait pour Googlebot. Celui de demain optimise pour Googlebot **et** pour la dizaine de crawlers IA qui découpent le web en réponses conversationnelles. Ce n’est pas du cloaking. C’est de l’adaptation de format.

### Servir du Markdown à GPTBot est-il considéré comme du cloaking par Google ?

Non. Le cloaking Google exige trois conditions cumulatives : différence de contenu, ciblage de Googlebot, et intent manipulatoire. WS Markdown for Bots ne cible pas Googlebot, qui reçoit le HTML normal. Seuls les crawlers d’IA générative reçoivent le Markdown, et ils forment une catégorie séparée de Googlebot depuis septembre 2023.

### Google-Extended est-il le même que Googlebot ?

Non. Depuis septembre 2023, Google-Extended est un crawler distinct de Googlebot, dédié à l’alimentation des IA génératives Google. Il se gère indépendamment via robots.txt et n’a aucune influence sur le ranking classique. C’est cette séparation qui rend légale la différenciation de format.

### Que se passe-t-il si Google indexe accidentellement une réponse Markdown ?

Chaque réponse Markdown servie par WS Markdown for Bots porte trois en-têtes de protection : X-Robots-Tag: noindex (empêche l’indexation), un header canonical pointant vers la version HTML, et Content-Type: text/markdown. Les URLs .md ne figurent pas dans le sitemap ni dans les liens internes crawlables.

### WS Markdown for Bots fonctionne-t-il avec tous les sites WordPress ?

Oui. Le plugin détecte le User-Agent entrant et sert la version Markdown si le crawler fait partie de la liste configurée (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, etc.). La liste est configurable dans les réglages. Un mode conservatif permet de garder uniquement l’accès par suffixe .md explicite.