GEO

Audit technique GEO : la grille qu''un audit SEO ignore

Co-fondateur de Slashr, directeur SEO, conférencier SMX 2024.

Publié le 29 juin 2026•15 min de lecture

Résumer avec :

On te vend des audits GEOGenerative Engine Optimization. Optimisation pour apparaître dans les réponses des IA génératives. depuis dix-huit mois. La plupart sont des audits SEOSearch Engine Optimization. Ensemble des techniques visant à améliorer le positionnement d'un site web dans les résultats naturels des moteurs de recherche. techniques avec une slide ChatGPTAgent conversationnel d'OpenAI utilisant un LLM pour générer des réponses. collée à la fin.

Un audit technique orienté GEO regarde des choses qu'un crawlProcessus par lequel les robots des moteurs de recherche parcourent et analysent les pages web. SEO classique ne verra jamais : quels bots LLM ont le droit de lire ton site, si tes paragraphes sont extractibles tels quels par un modèle, et si ton identité de marque tient debout en dehors de tes propres pages. Le reste (indexationProcessus par lequel Google ajoute une page à sa base de données pour qu'elle puisse apparaître dans les résultats., performance, structure interne), tu le partages avec le SEO, et tant mieux. Mais ce n'est pas là que se joue ta présence dans ChatGPT, PerplexityMoteur de recherche conversationnel basé sur l'IA, concurrent émergent de Google. ou les AI Overviews de Google.

Concrètement, un audit GEO produit une grille à trois étages : crawlabilité par les agents IA, extractibilité du contenu, consolidation de la marque hors site. Pour chaque item, deux infos qui comptent : l'impact sur ta citabilité (haut, moyen, bas) et la facilité de correction. C'est ça qu'un client doit pouvoir appliquer en sortie d'audit, pas un PDF de 40 pages qui finit oublié dans un Drive.

Un audit GEO n'est pas un audit SEO repeint

La plupart des articles qui rankent sur ce sujet te récitent la même chose : « le GEO, c'est analyser votre visibilité dans les IA génératives ». D'accord. Mais l'audit technique, lui, personne ne le détaille vraiment.

Un audit technique SEO vérifie qu'un crawler comme GooglebotRobot d'exploration de Google qui parcourt le web pour découvrir et indexer les pages. peut explorer, rendre et indexer tes pages. Un audit technique GEO part du même socle, puis ajoute une couche que le SEO ignore : est-ce qu'un modèle de langage peut lire, extraire et citer ton contenu, et est-ce qu'il a une raison de te faire confiance plutôt qu'à un concurrent. Ce ne sont pas les mêmes signaux. Un site peut ranker premier sur Google et être totalement absent de Perplexity. L'inverse arrive aussi.

La citabilité ne se réduit pas à l'indexation. Tu peux être parfaitement indexé, rapide, propre côté technique SEO, et rester invisible des moteurs IA parce que ton robots.txt bloque les bons bots, que ton contenu est rendu en JavaScriptLangage de programmation web. Son mauvais usage peut bloquer l'indexation par les moteurs de recherche. côté client, ou que ta marque n'existe nulle part en dehors de ton domaine.

Ce qu'un audit GEO regarde en plus du SEO

Qui te crawle côté LLM (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot) et ce que ton robots.txtFichier texte à la racine d'un site indiquant aux robots quelles pages explorer ou ignorer. en fait

Si tes passages sont extractibles seuls, sans le reste de la page

Si ton identité de marque est consolidée hors site (Wikidata, knowledge panelBase de connaissances de Google affichant des informations structurées sur des entités (personnes, entreprises, lieux)., cohérence d'une source à l'autre)

Quelles pages sont déjà citées par les IA, et lesquelles devraient l'être

Vérifier qui te crawle côté bots LLM

C'est l'item à plus fort impact de tout l'audit, et le plus vite négligé. Si les bons agents IA n'ont pas le droit de lire ton site, le reste ne sert à rien. Avant d'optimiser quoi que ce soit, tu regardes ton robots.txt et tes logs serveurFichiers enregistrant toutes les requêtes reçues par un serveur, permettant d'analyser le comportement des bots..

Les user-agents qui comptent en 2026

Tous les bots IA ne font pas le même métier. Il y a deux familles, et c'est l'arbitrage entre les deux qui structure cette partie de l'audit.

Les crawlers de training, qui aspirent du contenu pour entraîner les modèles : GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (token d'opt-out pour GeminiIA multimodale de Google, intégrée progressivement à ses produits dont la recherche., qui n'affecte pas l'indexation Google Search), Applebot-Extended (Apple Intelligence), Bytespider (ByteDance) et Amazonbot.

Les bots de retrieval en direct, qui vont chercher une page au moment où un utilisateur pose une question : OAI-SearchBot et ChatGPT-User (OpenAI), PerplexityBot et Perplexity-User, Claude-User. Ce sont eux qui déterminent si tu peux être cité maintenant, en réponse à un prompt, source à l'appui.

Lire ton robots.txt comme un bot LLM

La vérif tient en une ligne :

curl -s httpsProtocole sécurisé de transfert de données. Facteur de ranking depuis 2014.://tonsite.com/robots.txt

Tu repères les blocs User-agent et tu vérifies, pour chacun des agents ci-dessus, s'il tombe sur un Disallow: /. Le piège classique, c'est le User-agent: * permissif côté SEO, mais avec un plugin de sécurité ou une règle WAF qui bloque tout user-agent inconnu en amont du robots.txt. Tu testes alors la réponse réelle :

curl -A "OAI-SearchBot" -I https://tonsite.com/page-importante

Un 200 propre, parfait. Un 403, un 429 ou un challenge Cloudflare, tu es invisible pour ce bot sans le savoir. Croise toujours avec tes logs serveur ou les analyticsOutil gratuit Google pour analyser le trafic et le comportement des visiteurs d'un site. de ton CDNContent Delivery Network. Réseau de serveurs distribuant le contenu depuis le serveur le plus proche de l'utilisateur. : la seule preuve fiable que PerplexityBot te lit, c'est de le voir passer.

Le blocage CDN qui annule tout

Le toggle « Block AI bots » de Cloudflare (et équivalents) passe par-dessus ton robots.txt et tape souvent large : il coupe aussi les bots de retrieval que tu voulais garder. Résultat, tu protèges ton training et tu sabordes ta citabilité au passage. Vérifie ce réglage avant de toucher au robots.txt.

Bloquer le training, garder le search

L'arbitrage dépend de ton modèle économique.

Si tu es un média ou un éditeur qui peut monétiser une licence de contenu, tu bloques le training (GPTBot, ClaudeBot, Google-Extended, Applebot-Extended) et tu laisses passer les bots de retrieval. Tu restes citable en direct sans nourrir les modèles gratuitement.

Si tu es un e-commerce, un SaaS ou un site lead-gen qui veut un maximum de présence, tu ouvres tout. Être dans les corpus d'entraînement et récupérable en direct, ce sont deux portes vers la citationMention du NAP d'une entreprise sur des annuaires ou sites tiers., autant prendre les deux.

Bytespider ignore historiquement les directives du robots.txt. Tu ne le gères donc pas au robots.txt mais au niveau réseau, si son volume de crawl te coûte des ressources. Note ce point dans l'audit : un bot qui ne respecte pas tes règles est un problème d'infra, pas de SEO.

Le JavaScript, angle mort des moteurs IA

Googlebot rend le JavaScript. Les bots LLM, beaucoup moins, et c'est l'état de l'art en 2026 : la plupart des crawlers IA récupèrent le HTML brut sans exécuter le JS côté client. Un retrieval bot qui va chercher ta page en direct se contente le plus souvent du DOM initial servi par ton serveur.

Conséquence directe pour l'audit : tout contenu critique chargé après le rendu client est, pour un modèle, du vide. Une SPASingle Page Application. Application web chargeant dynamiquement le contenu sans recharger la page. en client-side rendering qui affiche un écran blanc dans le HTML source est invisible à la citation, même si elle ranke correctement sur Google grâce au rendering différé.

Côté technique : tu vérifies ce que voient les bots avec un curl -s https://tonsite.com/page | grep "ton contenu clé". Si ton paragraphe principal n'apparaît pas dans la sortie, il n'est pas dans le HTML initial. La correction, c'est du SSR ou du SSG sur les pages stratégiques. C'est l'item le plus coûteux à corriger de la grille, parce qu'il touche l'architecture, mais sur les pages que tu veux voir citées, il n'est pas négociable.

Pour les pros

Le rendu dynamique (servir du HTML pré-rendu aux bots détectés) reste une option transitoire valable pour les bots LLM, là où Google le déconseille pour le SEO. Tant que tu sers le même contenu, ce n'est pas du cloakingTechnique black hat affichant un contenu différent aux moteurs et aux utilisateurs. Fortement pénalisée.. Mais c'est une rustine : si tu refonds, vise le SSRTechnique générant le HTML sur le serveur, facilitant l'indexation du contenu JavaScript. universel.

Rendre tes passages extractibles

Un modèle ne cite pas une page, il cite un passage. Un audit GEO vérifie donc que tes paragraphes survivent à l'extraction : sortis de leur contexte, est-ce qu'ils tiennent debout et répondent à une question ?

Le paragraphe auto-portant de 40 à 80 mots

La règle opérationnelle : chaque réponse importante tient dans un paragraphe de 40 à 80 mots qui se comprend seul. Un paragraphe qui commence par « Cela permet aussi de… » ou « Comme vu plus haut… » n'est pas extractible : le modèle ne sait pas à quoi « cela » renvoie. Tu réécris en répétant le sujet en début de paragraphe. Ça paraît lourd à l'œil humain, c'est exactement ce qui rend un passage citable.

Des headings qui posent une question et y répondent

Côté contenu : tes H2 et H3 doivent coller aux requêtesTerme ou expression que les utilisateurs saisissent dans un moteur de recherche. Base de toute stratégie SEO. réelles, et le paragraphe juste en dessous doit y répondre directement, en une phrase, avant de développer. Un heading décoratif type « Une approche différente » ne donne aucun signal. Un heading qui reprend l'intentObjectif réel de l'utilisateur derrière sa requête : informationnelle, navigationnelle, transactionnelle ou commerciale. de la requête, suivi d'une réponse nette, c'est ce que le modèle va attraper.

Listes et FAQ que le modèle peut découper

Les structures listables propres (vraies listes HTML, tableaux nets, FAQ balisées) se découpent mieux que de la prose dense. Les pages avec un schemaVocabulaire standardisé de balisage structuré reconnu par Google, Bing et Yahoo. FAQPage sont citées 28 % plus souvent dans les AI Overviews (source : Jonlabs). L'audit vérifie donc que tes FAQ sont structurées, pas juste mises en gras dans un bloc de texte.

Données structurées, le check minimal

Les données structuréesCode ajouté au HTML pour aider les moteurs à comprendre le contenu et générer des rich snippets. ne te font pas ranker en GEO, mais elles désambiguïsent. Elles disent au modèle ce qu'est cette page et qui la publie. L'audit passe en revue, selon le type de page : Organization (sur tout le site, complet, avec sameAs vers tes profils), Article ou BlogPosting sur l'éditorial, Product sur les fiches, FAQPage et HowTo quand le contenu s'y prête, et l'attribution d'auteur identifiable.

Tu testes la validité au Schema Markup Validator, et surtout tu vérifies la cohérence : un schema Organization qui annonce un nom de marque différent de ton <title> ou de ta page À propos crée du bruit. Inutile d'empiler les types, vise un socle cohérent. Ce bloc mérite un article à lui seul, on y reviendra.

Citabilité, tes sources et tes liens sortants

Un contenu qui ne cite personne donne peu de raisons à un modèle de le traiter comme une source. L'audit regarde si tes pages s'appuient sur des données sourcées et si tes liens sortants pointent vers des domaines réellement indexés par les LLM. Citer renforce ta propre citabilité. Ça paraît contre-intuitif : un modèle accorde plus de crédit à un contenu qui renvoie vers d'autres sources qu'à un texte refermé sur lui-même.

L'identité de marque se joue hors de ton site

Voilà l'angle que les audits SEO ne touchent jamais, et qui pèse lourd en GEO. Un modèle décide de te citer en partie sur ce qu'il « sait » de ta marque, et cette connaissance vient surtout de l'extérieur de ton domaine.

L'audit vérifie d'abord ce que tu contrôles : une page À propos claire, qui dit qui tu es, depuis quand, sur quoi tu fais autorité, avec un schema Organization complet. Ensuite, la partie hors site, plus dure à bouger : ta présence sur Wikidata, l'existence d'une fiche Wikipédia si ta notoriété le justifie, ton knowledge panel Google, et surtout la cohérence de tes informations entre toutes ces sources. Un nom de marque, une adresse, un fondateur qui divergent entre ton site, ton LinkedIn et ton Wikidata, et le modèle hésite. Quand les infos divergent, le modèle doute. Et un modèle qui doute ne cite pas.

Côté correction, c'est le poste le plus long. Tu ne crées pas une entité Wikidata propre en un après-midi, et un knowledge panel ne se commande pas. Mais consolider l'info que tu maîtrises (À propos, schema, profils, mentions cohérentes) est faisable vite et déplace déjà l'aiguille. La question que pose cet item : si on demandait à un modèle « qui est [ta marque] », est-ce qu'il répondrait quelque chose de juste, ou est-ce qu'il inventerait ?

Core Web Vitals comptent encore, mais pas comme tu crois

Les Core Web VitalsMétriques de Google mesurant l'expérience utilisateur : LCP (chargement), INP (interactivité), CLS (stabilité visuelle). ne sont pas un signal de citation directe. Mais une page lente ou instable est crawlée moins souvent et moins en profondeur, et un bot de retrieval qui time out ne te lit pas du tout. La performance reste donc un prérequis d'accessibilité aux bots, pas un facteur de rankingPosition d'une page web dans les résultats de recherche pour une requête donnée. GEO en soi. Impact réel sur ta citabilité : bas à moyen. Tu le notes dans la grille, tu ne refais pas ton infra pour ça si le reste n'est pas réglé.

Repérer les pages déjà citées et celles qui devraient l'être

Avant de corriger, il faut mesurer. La partie diagnostic d'un audit GEO consiste à savoir, prompt par prompt, qui est cité aujourd'hui et sur quelles requêtes. C'est ce qu'on fait tourner avec Janus, notre outil de visibilité LLM : on définit un référentiel de prompts représentatifs de tes intentions de recherche, on interroge plusieurs modèles, et on relève quelles pages, quels domaines et quels concurrents sortent en citation.

De là, tu construis deux listes. Les pages déjà citées : tu les protèges, tu vérifies qu'aucun item technique de la grille ne les fragilise, et tu les renforces. Les pages qui devraient être citées et ne le sont pas : c'est ta gap analysis, et c'est là qu'est la vraie valeur de l'audit.

Pour chaque page du gap, tu remontes la cause avec la grille en main. La page est-elle seulement crawlable par les bots de retrieval ? Son contenu est-il extractible ou noyé dans du JS ? Le passage répond-il vraiment à la requête sur laquelle tu veux être cité ? La marque a-t-elle assez d'autorité hors site sur ce sujet ? Tu croises ces pages avec tes pages stratégiques, celles qui génèrent du business, et tu obtiens une priorisation qui n'a rien d'arbitraire. C'est la différence entre un audit qui liste des problèmes et un audit qui dit par quoi commencer.

La grille d'audit, condensée

Voilà à quoi ressemble la sortie d'audit, prête à appliquer. Impact sur la citabilité d'un côté, facilité de correction de l'autre. Tu attaques en haut à gauche : fort impact, correction facile.

Item à vérifier	Impact	Correction
robots.txt autorise les bots de retrieval (OAI-SearchBot, Perplexity-User)	Haut	Facile
Pas de blocage CDN/WAF silencieux des agents IA	Haut	Facile
Arbitrage training vs search décidé explicitement	Moyen	Facile
Contenu critique rendu en SSR/SSG, pas en JS client	Haut	Difficile
Paragraphes auto-portants de 40 à 80 mots	Haut	Moyen
HeadingsBalises HTML structurant le contenu en hiérarchie (H1 à H6). Essentielles pour l'accessibilité et le SEO. alignés sur les requêtes, réponse directe dessous	Moyen	Facile
FAQ et listes structurées proprement (FAQPage)	Moyen	Facile
Schema Organization complet et cohérent	Haut	Facile
Article / Product / HowTo selon le type de page	Moyen	Moyen
Auteur identifiable et attribué	Moyen	Moyen
Sources citées, liens sortants vers domaines indexés	Moyen	Facile
Page À propos claire, infos cohérentes entre les sources	Haut	Moyen
Présence Wikidata, knowledge panel	Haut	Difficile
Core Web Vitals dans le vert	Bas	Moyen
Pages citées identifiées, gap analysis posée	Haut	Moyen

Combien coûte un audit GEO et en combien de temps

En DIY, c'est faisable si tu as le temps. Compte de l'ordre de 4 à 8 heures par semaine pendant trois mois pour poser les bases (audit, fiche GoogleFiche d'établissement Google affichant les informations locales d'une entreprise. Business, schema, FAQ, contenu enrichi), soit 50 à 100 heures de ton temps pour zéro budget cash (source : Jonlabs). Ça ne demande pas de compétences rares. Ça demande de tenir dans la durée : un audit GEO décroché entre deux urgences ne va jamais au bout.

En prestation, un audit complet se situe autour de 800 à 1 300 € HT, avec des livrables sous quelques jours, parfois 72 h en express (source : stafe.fr). Un accompagnement avec setup initial (audit, corrections techniques, articles piliers, structure schema) se chiffre plus haut, de l'ordre de 1 500Code HTTP indiquant une erreur côté serveur. Impacte négativement le crawl et l'expérience utilisateur. à 4 000 CHF, puis un suivi mensuel entre 400 et 1 200 CHF selon la profondeur d'optimisation (source : Jonlabs).

Sur les délais, sépare bien deux choses. L'audit lui-même prend quelques jours. L'impact sur ta citabilité, lui, se compte en semaines à quelques mois : le temps que les bots repassent, que les corrections techniques soient prises en compte et que les modèles intègrent ton contenu mis à jour. Quiconque te promet une présence IA en une semaine te vend du vent.

Questions fréquentes

À quelle fréquence refaire un audit technique GEO ?

Un audit complet une à deux fois par an suffit pour la plupart des sites. Entre deux, ce qui se surveille en continu, c'est le monitoring de citation (quels prompts, quels concurrents) et le statut de tes bots dans les logs. Refais un audit complet plus tôt après une refonteModification majeure du design ou de la structure d'un site. Risque SEO si mal gérée. technique, un changement de CMS ou une migration, qui peuvent casser silencieusement ta crawlabilité IA.

Faut-il bloquer GPTBot pour protéger son contenu ?

Ça dépend de ton modèle. Si tu monétises une licence de contenu ou crains le pillage, bloquer le training a du sens, à condition de garder ouverts les bots de retrieval pour rester citable en direct. Si ton objectif est la visibilité, bloquer GPTBot te prive d'une porte d'entrée dans les modèles sans réelle contrepartie. Décide en fonction de la valeur de ton contenu, pas par réflexe.

Peut-on faire un audit GEO sans outil payant ?

Le diagnostic technique, oui : robots.txt, logs serveur, curl, validateurs de schema, ça ne coûte rien. Ce qui devient laborieux à la main, c'est la mesure de citation, savoir qui sort sur quels prompts et chez quel modèle. Tester quelques requêtes manuellement donne une intuition, mais pas une cartographie. C'est là qu'un outil de suivi comme Janus fait gagner du temps et de la fiabilité.

L'audit GEO remplace-t-il l'audit SEO ?

Non, il s'ajoute. Les deux partagent un socle technique (indexation, performance, structure), mais l'audit GEO regarde des signaux que le SEO ignore : bots LLM, extractibilité, identité hors site. Si ton budget est serré, commence par l'audit SEOAnalyse complète d'un site identifiant les problèmes techniques, contenus et netlinking. qui sert aussi le GEO, puis ajoute la couche GEO sur les pages qui comptent vraiment pour ta visibilité dans les moteurs IA.