Bien que souvent négligé, le crawl budget peut faire la différence en SEO sur les sites web avec une volumétrie de pages importante. Voyons cela en détail.
Définition du Crawl Budget
Le Crawl Budget, ou budget d’exploration en français, représente le nombre maximum de pages de votre site que les robots des moteurs de recherche, comme Googlebot, vont visiter dans un laps de temps donné. En d’autres termes, c’est la quantité de ressources allouées par un moteur de recherche pour explorer votre site web.
Le Crawl Budget est déterminé par deux facteurs principaux : le Crawl Rate Limit et le Crawl Demand.
Importance du Crawl Budget en SEO
Vous vous demandez peut-être pourquoi vous devriez vous préoccuper du Crawl Budget. La réponse est simple : une meilleure indexation. Plus votre Crawl Budget est élevé, plus les moteurs de recherche peuvent explorer et indexer de pages de votre site, ce qui améliore votre visibilité dans les résultats de recherche.
De plus, un Crawl Budget optimisé permet des mises à jour plus rapides de votre contenu dans l’index des moteurs de recherche. Cela signifie que lorsque vous publiez de nouvelles pages ou mettez à jour du contenu existant, ces changements seront reflétés plus rapidement dans les résultats de recherche.
Fonctionnement du Crawl Budget
Maintenant que nous avons défini le Crawl Budget, plongeons dans son fonctionnement. Comprendre comment il fonctionne vous aidera à mieux l’optimiser pour votre site.
Rôle des crawlers et des Googlebots
Les crawlers, également appelés robots d’indexation, sont des logiciels autonomes qui parcourent le web 24h/24 et 7j/7. Leur mission principale est de découvrir de nouveaux contenus et de mettre à jour les informations existantes. Google utilise plusieurs types de crawlers, appelés Googlebots, pour couvrir différents domaines : recherche, mobile, publicités, images, vidéos, etc.
Ces robots naviguent de lien en lien, analysant le contenu de chaque page qu’ils visitent. Leur objectif est d’indexer les pages et d’aider le moteur de recherche à les classer selon leur qualité et leur pertinence.
Facteurs déterminant le Crawl Budget
Comme je l’ai mentionné précédemment, le Crawl Budget est influencé par deux facteurs principaux :
- Crawl Rate Limit : C’est le nombre maximum de connexions simultanées que Googlebot peut faire à votre site sans en perturber le fonctionnement. Ce nombre est déterminé en fonction de la vitesse de réponse de votre serveur et de la santé globale de votre site.
- Crawl Demand : C’est l’intérêt que Google porte à votre site. Si votre site est fréquemment mis à jour ou si vos pages sont populaires (c’est-à-dire souvent liées à partir d’autres sites ou affichées dans les résultats de recherche), Google aura tendance à vouloir le crawler plus souvent.
Astuce : Vous pouvez suivre les demandes d’exploration de googlebot dans la Google Search Console, dans « paramètres » puis « Statistiques sur l’exploration »
Éléments influençant le Crawl Budget
Google détermine un crawl budget pour tous les sites, qui diffèrent logiquement d’un site web à l’autre : Amazon.com doit être beaucoup plus souvent visité par les robots que le site de la marie du coin.
Taille et structure du site
La taille de votre site, c’est-à-dire le nombre total de pages, a un impact important sur votre Crawl Budget. Un site avec un grand nombre de pages nécessitera logiquement un budget de crawl plus important pour que toutes les pages soient explorées et indexées.
La structure de votre site joue également un rôle crucial. Un site bien organisé, avec une architecture claire et un maillage interne efficace, facilitera le travail des robots et permettra une exploration plus efficace. Pour cela, je recommande vivement de travailler sur la profondeur de vos pages et d’améliorer le maillage interne de votre site.
Vitesse du serveur et temps de chargement
La vitesse de réponse de votre serveur est un des principaux facteur déterminant pour votre Crawl Budget. Si votre serveur est lent, les robots passeront moins de temps à explorer votre site. Il est donc crucial d’investir dans un hébergement de qualité, capable de répondre rapidement aux demandes.
Optez pour un serveur dédié si possible. Bien que plus coûteux, c’est la solution la plus efficace pour améliorer la vitesse de votre site.
Astuce : il est possible de vérifier le TTFB (time to first byte, le temps de réponse de votre serveur) que Googlebot enregistre directement dans la Search console. Le rapport est disponible dans « Paramètres » puis « Statistiques sur l’exploration ». Je vous conseille de conserver un temps de réponse moyen inférieur à 500 MS.
De même, le temps de chargement de vos pages influence directement votre Crawl Budget. Des pages qui se chargent rapidement permettront aux robots d’explorer plus de contenu dans le temps qui leur est imparti.
Fréquence de mise à jour du contenu
Les moteurs de recherche privilégient les sites qui sont régulièrement mis à jour. Si vous publiez fréquemment du nouveau contenu ou mettez à jour votre contenu existant, les robots de crawl seront incités à revenir plus souvent sur votre site.
Popularité et autorité du site
La popularité de votre site joue également un rôle important dans la détermination de votre Crawl Budget. Si votre site bénéficie de nombreux liens entrants de qualité, cela indique aux moteurs de recherche que votre site est une ressource précieuse. Par conséquent, ils seront plus enclins à lui allouer un Crawl Budget plus important.
Erreurs techniques et problèmes d’architecture
Les erreurs sur votre site, telles que les liens cassés, les pages d’erreur 404 ou les redirections excessives influencent négativement votre Crawl Budget. Ces erreurs font perdre du temps aux robots et réduisent l’efficacité de leur exploration.
De même, une architecture trop complexe ou des problèmes comme les boucles de redirection peuvent créer des « pièges à crawl » qui consomment inutilement votre Crawl Budget.
Les « crawler traps » ou pièges à crawl sont des problèmes structurels qui peuvent sérieusement entraver votre SEO en ralentissant ou en bloquant les robots d’exploration.
Impact du Crawl Budget sur le référencement
Le Crawl Budget a une influence directe sur plusieurs aspects de votre référencement.
Indexation des pages
L’un des impacts les plus évidents du Crawl Budget concerne l’indexation de vos pages. Un Crawl Budget plus élevé signifie que les moteurs de recherche peuvent explorer et indexer un plus grand nombre de vos pages. C’est particulièrement important pour les sites de grande taille, disons minimum 100 000 URL.
Si votre Crawl Budget est insuffisant, vous aurez des problèmes pour indexer et actualiser vos pages sur Google car ce dernier ne visitera qu’une partie des pages de votre site.
Vous pouvez vérifier le nombre de pages indexées de votre site dans Google Search Console, sous la section « Couverture de l’index ».
Visibilité dans les résultats de recherche
Le Crawl Budget influence indirectement votre visibilité dans les SERPs (pages de résultats des moteurs de recherche). Lorsque vos pages sont crawlées et indexées plus rapidement, elles ont de meilleures chances d’apparaître dans les résultats de recherche pour les requêtes pertinentes.
Assez logiquement, si votre page n’est pas indexée, elle ne peut pas être visible sur les SERP.
Mise à jour rapide du contenu dans l’index
Le crawl budget va aussi jouer sur la vitesse de mise à jour de votre contenu dans l’index des moteurs de recherche. Si vous publiez fréquemment du nouveau contenu ou mettez à jour régulièrement vos pages existantes, un Crawl Budget suffisant est essentiel pour que ces changements soient reflétés rapidement dans les résultats de recherche.
Par exemple, si vous gérez un site d’actualités, vous voulez que vos derniers articles soient indexés et apparaissent dans les résultats de recherche le plus rapidement possible. Un Crawl Budget limité pourrait retarder l’indexation de votre contenu, le rendant moins compétitif par rapport à d’autres sites d’actualités.
L’optimisation du Le Crawl Budget peut créer un cercle vertueux : un meilleur crawl conduit à une meilleure indexation, ce qui peut entraîner une meilleure visibilité, générant plus de trafic et de liens entrants, ce qui à son tour peut inciter les moteurs de recherche à augmenter votre Crawl Budget.
Stratégies avancées pour les grands sites
Si vous gérez un site de grande taille, avec des millions de pages, l’optimisation du Crawl Budget devient particulièrement importante. Voici des quelques stratégies avancées que vous pouvez mettre en œuvre pour maximiser l’efficacité de votre Crawl Budget.
Hiérarchisation et segmentation
Pour simplifier l’analyse lorsque l’on a des millions de pages, il est souvent nécessaire de segmenter les pages en différents groupes, par exemple :
- Par famille de produits/catégories
- Par typologies (produits, catégories…)
- Par priorité stratégique (pages rapportant le plus de CA etc)
- Par caractéristique technique (filtres, pagination, paramètres…)
Cela permet de facilement voir le nombre de hits des bots par famille, de facilement identifier quelles sont les familles qui sont le plus et les moins crawlées etc.
Par exemple, si ma famille de pages la plus rentable d’un point de vue business est celle qui est la moins crawlée, il y a sûrement des actions à réaliser pour inverser la tendance comme renforcer le maillage interne de cette famille en particulier.
Cela permet également de surveiller la réaction de Google par rapport à des modifications sur vos pages. En effet, si vous apportez une mise à jour sur la moitié de vos pages, vous devriez voir un énorme pic de visites des robots d’exploration en conséquence.
Gestion des ressources de crawl
Pour les sites de grande taille, une gestion efficace des ressources de crawl est obligatoire. Pour cela, on identifie quelles parties du site les robots d’explorations explorent plus qu’ils ne le devraient. Un des cas les plus courants est le crawl massif de pages avec paramètres qui est causé par les filtres à facette sur les sites e-commerce. On a alors plusieurs manières de sauver du budget crawl :
Utilisation du fichier robots.txt
Pour les très grands sites, vous pouvez utiliser le fichier robots.txt pour diriger le crawl vers les sections les plus importantes de votre site à des moments spécifiques. Par exemple :
User-agent: Googlebot
Allow: /section-importante/
Disallow: /section-moins-importante/
Vous pouvez aussi bloquer des pattern d’URL via l’utilisation de .* comme par exemple ici où l’on bloque toutes URL qui contient ?f (un paramètre de filtre) :
User-agent: Googlebot
Disallow: /?f=*
N’oubliez pas de mettre à jour régulièrement votre fichier robots.txt en fonction de vos priorités changeantes et de surveiller son impact sur le crawl.
Utilisation de l’obfuscation de liens
L’obfuscation de liens SEO est encore plus efficace que le blocage au robots.txt car elle ne dilue pas le pagerank. En revanche, son coût est beaucoup plus élevé car elle demande du développement spécifique alors que le blocage au robots.txt n’est au final que l’ajout d’une ligne dans le robots.txt : très facile à exécuter.
L’obfucation de liens permet donc de cacher les liens au robots d’exploration, ce qui permet à ces derniers de se concentrer sur les autres liens valides et donc de crawl les pages les plus importantes.
Encore une fois, l’identification de ces pages à bloquer se fait facilement si vous avez bien segmenté vos URL.
Outils pour analyser le Crawl Budget
Pour gérer efficacement votre Crawl Budget, vous pouvez utiliser des outils permettant d’analyser les logs ou des crawlers permettant de simuler le passage de Googlebot.
Google Search Console
Google Search Console est un bon pour surveiller votre Crawl Budget si votre site est assez petit. Voici les fonctionnalités clés à utiliser :
- Rapport de couverture : Ce rapport vous montre combien de vos pages sont indexées et identifie les problèmes d’indexation.
- Statistiques d’exploration : Cette section vous donne des informations sur la fréquence à laquelle Googlebot explore votre site.
- URL inspection : Cet outil vous permet de vérifier le statut d’indexation d’une page spécifique et de demander une nouvelle indexation si nécessaire.
Astuce : Surveillez régulièrement les « Statistiques d’exploration » pour détecter toute baisse soudaine du taux de crawl, qui pourrait indiquer un problème technique.
Crawlers SEO
Des outils de crawl comme Screaming Frog ou DeepCrawl peuvent simuler le comportement des robots des moteurs de recherche sur votre site. Ils sont particulièrement utiles pour :
- Identifier les problèmes techniques qui pourraient affecter le crawl (liens brisés, redirections excessives, etc.).
- Analyser la structure de votre site et la profondeur des pages.
- Détecter le contenu dupliqué.
Outils d’analyse de logs
L’analyse des fichiers de logs de votre serveur est l’une des méthodes les plus précises pour comprendre comment les robots des moteurs de recherche interagissent avec votre site. Des outils comme Screaming Frog Log Analyzer ou Oncrawl peuvent vous aider à :
- Identifier les pages les plus fréquemment crawlées.
- Détecter les « pièges à crawl » qui consomment inutilement votre Crawl Budget.
- Comprendre la fréquence de crawl de différentes sections de votre site.
Ces plateformes avancées peuvent être particulièrement utiles pour les grands sites avec des millions de pages, où l’optimisation du Crawl Budget devient critique.
L’utilisation combinée de ces outils vous donnera une vision complète de votre Crawl Budget et vous aidera à l’optimiser efficacement. N’oubliez pas que l’interprétation des données est tout aussi importante que leur collecte. Il est souvent utile de consulter un expert SEO pour tirer le meilleur parti de ces outils et mettre en place une stratégie d’optimisation du Crawl Budget adaptée à votre site.
Bonnes pratiques à retenir
Pour conclure, voici les bonnes pratiques essentielles à retenir pour optimiser votre Crawl Budget :
- Améliorez la structure de votre site : Une architecture claire et un maillage interne efficace facilitent le travail des robots d’exploration.
- Optimisez la vitesse de votre site : Un site rapide permet aux robots de crawler plus de pages dans le temps qui leur est alloué.
- Gérez efficacement votre contenu : Supprimez ou désindexez les pages de faible qualité ou dupliquées qui consomment inutilement votre Crawl Budget.
- Utilisez judicieusement le fichier robots.txt : Guidez les robots vers vos pages importantes et bloquez l’accès aux sections non essentielles.
- Maintenez un sitemap à jour : Un sitemap XML bien structuré aide les moteurs de recherche à comprendre l’organisation de votre site.
- Résolvez rapidement les erreurs techniques : Les erreurs 404, les redirections en chaîne et autres problèmes techniques peuvent gaspiller votre Crawl Budget.
- Surveillez régulièrement vos métriques de crawl : Utilisez des outils comme Google Search Console et l’analyse de logs pour comprendre comment les robots explorent votre site.
- Priorisez vos pages importantes : Pour les grands sites, assurez-vous que vos pages les plus stratégiques bénéficient de la majorité de votre Crawl Budget.