Article
7 novembre 2025
L'équipe Senthor

Comment analyser le trafic provenant des LLMs dans Google Analytics 4

Découvrez comment identifier et suivre les visites provenant de ChatGPT, Gemini, Copilot et autres LLMs dans Google Analytics 4 grâce à des filtres regex personnalisés.

Avec l'essor des modèles de langage comme ChatGPT, Gemini, Copilot et Perplexity, une nouvelle source de trafic apparaît dans vos statistiques web. Ces intelligences artificielles recommandent désormais des sites web à leurs utilisateurs, générant des visites que vous pouvez – et devez – suivre dans Google Analytics 4.

Mais attention : ce trafic n'a rien à voir avec le scraping. Il s'agit ici de véritables visiteurs humains qui cliquent sur les liens fournis par les LLMs, pas des robots qui aspirent vos pages. Voyons comment les identifier efficacement dans GA4.

Qu'est-ce que le trafic LLM dans Google Analytics ?

Lorsqu'un utilisateur pose une question à ChatGPT, Gemini ou Copilot, l'IA peut recommander votre site comme source d'information. Si l'utilisateur clique sur ce lien, il arrive sur votre site avec un referrer spécifique (commechatgpt.com ou gemini.google.com).

Points clés à comprendre :

  • Ce sont des visiteurs humains réels, pas des bots ou des crawlers
  • Ils viennent via un clic sur une recommandation de l'IA
  • Le referrer est identifiable dans vos outils d'analytics
  • Ce trafic génère des pages vues, du temps sur site, etc.

La différence fondamentale avec le scraping IA

Il est crucial de distinguer deux phénomènes très différents :

1. Le trafic LLM (visible dans GA4)

  • Des humains visitent votre site après une recommandation d'une IA
  • Visible dans Google Analytics car ce sont de vraies sessions utilisateur
  • Génère des conversions, de l'engagement, des revenus publicitaires potentiels
  • Similaire au trafic provenant d'un réseau social ou d'un site de recommandation

2. Le scraping IA (invisible dans GA4)

  • Des robots aspirent vos pages pour entraîner des modèles d'IA
  • N'apparaît généralement PAS dans Google Analytics (pas d'exécution JavaScript)
  • Ne génère aucune conversion, aucun revenu pour vous
  • Peut surcharger vos serveurs et voler votre contenu

Pour détecter et contrôler le scraping IA, vous avez besoin d'une solution dédiée comme Senthor, qui analyse les logs serveur, identifie les bots même masqués, et vous permet de bloquer ou monétiser leur accès. Google Analytics ne peut pas faire ça.

Comment identifier le trafic LLM dans GA4

Pour suivre efficacement les visites provenant des LLMs, vous devez créer un filtre personnalisé dans Google Analytics 4 utilisant une expression régulière (regex) qui capture les principaux referrers d'IA.

Étape 1 : Créer un segment personnalisé

  1. Connectez-vous à votre compte Google Analytics 4
  2. Allez dans Explore (Explorations)
  3. Créez une nouvelle exploration ou ouvrez-en une existante
  4. Dans la section Variables, cliquez sur le + à côté de "Segments"
  5. Sélectionnez "Créer un segment personnalisé"

Étape 2 : Configurer le filtre regex

Dans les conditions du segment, configurez :

  • Dimension : Session source/medium (ou Session source)
  • Type de correspondance : "correspond à l'expression régulière"
  • Valeur : utilisez la regex ci-dessous

La regex pour détecter les LLMs

Voici l'expression régulière complète qui capture les principaux LLMs :

^.*\.openai.*|.*copilot.*|.*chatgpt.*|.*gemini.*|.*gpt.*|.*neeva.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*edgeservices.*|.*bnngpt.*|.*gemini.*google.*$

Ce que capture cette regex

  • openai et chatgpt : ChatGPT et services OpenAI
  • copilot : Microsoft Copilot
  • gemini et bard : Google Gemini (anciennement Bard)
  • perplexity : Perplexity AI
  • writesonic, neeva, nimble : autres assistants IA
  • edgeservices : services Edge avec IA intégrée
  • bnngpt : variantes de GPT

Étape 3 : Analyser les données

Une fois votre segment créé, vous pouvez :

  • Voir le volume de trafic généré par les LLMs
  • Comparer le comportement : taux de rebond, durée de session, pages vues
  • Identifier les pages d'atterrissage les plus visitées depuis les LLMs
  • Mesurer les conversions générées par ce canal
  • Suivre l'évolution dans le temps

Créer un canal personnalisé pour les LLMs

Pour une analyse encore plus facile, vous pouvez créer un canal de trafic dédié :

  1. Dans GA4, allez dans Admin
  2. Sous "Affichage des données", cliquez sur "Groupes de canaux"
  3. Modifiez votre groupe de canaux principal
  4. Ajoutez une nouvelle règle de canal nommée "LLM / AI Traffic"
  5. Configurez la condition : Session source correspond à l'expression régulière (utilisez la regex ci-dessus)
  6. Placez cette règle AVANT "Direct" pour qu'elle soit prioritaire
  7. Enregistrez et publiez

Désormais, dans tous vos rapports d'acquisition, vous verrez un canal distinct pour le trafic LLM !

Limites de cette approche

Bien que cette méthode soit efficace pour tracker les visites humaines via les LLMs, elle présente plusieurs limites :

1. Tous les clics ne sont pas trackés

  • Certains LLMs peuvent ne pas transmettre de referrer
  • Les utilisateurs avec des bloqueurs de tracking ne seront pas comptés
  • Les nouvelles plateformes d'IA ne sont pas encore dans la regex

2. Aucune visibilité sur le scraping

C'est le point le plus important : Google Analytics ne vous dira JAMAIS :

  • Quels robots d'IA scrapent vos pages
  • Quelle fréquence de scraping vous subissez
  • Quelles pages sont aspirées pour entraîner des modèles
  • Combien de bande passante est consommée par les crawlers IA

3. Pas de contrôle ni de monétisation

Avec GA4, vous observez simplement. Vous ne pouvez pas :

  • Bloquer sélectivement certains bots d'IA
  • Autoriser l'accès contre rémunération
  • Protéger votre contenu du scraping massif
  • Distinguer les bots légitimes des bots agressifs

Pourquoi vous avez besoin de Senthor en complément

Google Analytics et Senthor sont complémentaires, pas concurrents :

FonctionnalitéGoogle AnalyticsSenthor
Trafic humain via LLMs✅ Oui✅ Oui
Détection du scraping IA❌ Non✅ Oui
Identification des bots masqués❌ Non✅ Oui
Blocage sélectif❌ Non✅ Oui
Monétisation du contenu❌ Non✅ Oui (à venir)
Protection du SEO❌ Non✅ Oui
Analyse comportementale✅ Humains uniquement✅ Bots et patterns

Cas d'usage concrets

Scénario 1 : Éditeur de contenu

Vous publiez des tutoriels techniques. Avec GA4, vous voyez que 5% de votre trafic vient de ChatGPT et Perplexity. C'est encourageant ! Mais en parallèle, des bots scrapent vos articles pour alimenter d'autres IA sans vous citer.

Solution : GA4 pour mesurer le trafic humain + Senthor pour détecter et bloquer le scraping non autorisé.

Scénario 2 : Site e-commerce

Des utilisateurs arrivent via Copilot après avoir demandé des recommandations de produits. GA4 vous montre ces sessions et les conversions associées. Mais vous constatez aussi une charge serveur anormale : des bots aspirent vos fiches produits.

Solution : GA4 pour l'attribution marketing + Senthor pour protéger votre catalogue produit.

Scénario 3 : Média d'actualité

Gemini recommande vos articles sur l'actualité. Super pour la visibilité ! Mais GPTBot et d'autres crawlers copient l'intégralité de vos contenus premium pour entraîner leurs modèles.

Solution : GA4 pour mesurer l'audience + Senthor pour bloquer l'accès aux contenus premium par les bots IA.

Comment mettre en place les deux solutions

1. Configurez GA4 (maintenant)

  • Implémentez la regex présentée dans cet article
  • Créez votre canal "LLM Traffic"
  • Configurez des rapports pour suivre l'évolution
  • Analysez le comportement de ce trafic par rapport aux autres sources

2. Installez Senthor (si vous êtes concerné par le scraping)

  • Évaluez si votre site est scrappé (logs serveur, charge anormale)
  • Installez le plugin WordPress ou l'intégration Vercel
  • Configurez les règles de blocage/autorisation
  • Surveillez les tentatives de scraping en temps réel
  • Préparez la monétisation future de votre contenu

Conclusion : deux outils, deux missions

Mesurer le trafic LLM dans Google Analytics 4 est simple, gratuit et révélateur. Cette nouvelle source de visiteurs peut devenir significative, et la regex que nous vous donnons vous permet de la tracker dès maintenant.

Mais n'oubliez pas : ce que vous voyez dans GA4, ce sont des humains qui cliquent. Ce que vous NE voyez PAS, ce sont les robots qui copient. Et c'est là que des solutions comme Senthor deviennent indispensables.

L'ère de l'IA générative transforme le web. Les éditeurs qui survivront seront ceux qui sauront à la fois accueillir le trafic humain généré par les LLMs ET protéger leur contenu du scraping massif.

Les deux ne sont pas opposés. Ils sont complémentaires.

Vous avez aimé cet article ?Partagez-le avec votre réseau

Protégez votre contenu dès aujourd'hui

Monétisez votre contenu face aux IA avec Senthor.

Senthor - Monétisez votre contenu face aux IA