Le budget de crawl est essentiel pour le bon référencement d’un site web. Il représente le nombre de pages que les moteurs de recherche vont explorer dans un laps de temps donné. Gérer efficacement ce budget est crucial pour garantir une exploration optimale du site, impactant directement ses performances SEO.
Pourquoi les moteurs de recherche allouent-ils un budget d’exploration aux sites web ?
Les moteurs de recherche attribuent un budget d’exploration aux sites web car leurs ressources sont limitées et ils doivent répartir leur attention sur des millions de sites. Ainsi, ils ont besoin d’un moyen de prioriser leurs efforts d’exploration, d’où l’importance de l’attribution d’un budget d’exploration à chaque site web.
Comment est attribué le budget de crawl aux sites web ?
Le budget de crawl est déterminé en fonction de deux principaux facteurs, à savoir la capacité et la demande d’exploration :
- Capacité d’exploration / charge de l’hôte : quelle quantité d’exploration un site web peut-il tolérer et quelles sont les préférences de son propriétaire ?
- Demande d’exploration / planification de l’exploration : quels sont les URL qui nécessitent d’être explorés plus fréquemment, en se basant sur leur popularité et la fréquence des mises à jour. Le budget de crawl est un concept commun en référencement, parfois nommé espace de crawl ou temps de crawl.
Il est important de noter que le budget de crawl est généralement une préoccupation uniquement pour les sites web de grande envergure, par exemple ceux contenant 10 000 pages ou plus.
Le budget de crawl se limite-t-il uniquement aux pages ?
En réalité, le terme ne se réfère pas exclusivement aux pages, mais englobe tous les documents explorés par les moteurs de recherche. Parmi ces documents, on peut citer les ressources statiques comme le JavaScript et le CSS ainsi que les fichiers PDF.
Comment se déroule la requête d’exploration / la planification de l’exploration en pratique ?
Le processus de crawl, ou programmation de crawl, vise à évaluer l’utilité de revisiter les URL. Plusieurs facteurs influent sur la requête d’exploration, tels que :
- Popularité : quantité de liens internes et externes pointant vers une URL, ainsi que le nombre de requêtes pour lesquelles elle est positionnée.
- Fraîcheur : régularité avec laquelle l’URL est mise à jour.
- Type de page : est-ce que le contenu de la page est susceptible de changer ? Par exemple, une page de catégorie de produits ou des conditions générales. Selon vous, laquelle change le plus fréquemment et nécessite une exploration plus régulière ?
Vous souhaitez que les moteurs de recherche repèrent et comprennent le plus grand nombre possible de vos pages indexables, et vous espérez qu’ils le fassent le plus rapidement possible. Lorsque vous ajoutez de nouvelles pages ou mettez à jour des pages existantes, vous souhaitez que les moteurs de recherche les identifient dans les plus brefs délais. Plus les pages sont indexées rapidement, plus vous pourrez en bénéficier.
Si vous gaspillez votre budget d’exploration, les moteurs de recherche ne pourront pas parcourir efficacement votre site web. Ils passeront du temps sur des parties de votre site qui sont peu importantes, ce qui pourrait conduire à ce que des sections clés de votre site ne soient pas découvertes. Si les robots de Google ne connaissent pas ces pages, ils ne les examineront pas et ne les indexeront pas, ce qui vous empêchera d’attirer des visiteurs via les moteurs de recherche.
Comment analyser le budget de crawl ?
Répartition du budget de crawl dans Google Search Console
Si votre site est vérifié dans Google Search, vous pouvez obtenir un aperçu de la répartition du budget de crawl alloué à votre site web par Google. Cette analyse est inclus dans mes prestations d’audit technique SEO. Voici la procédure à suivre :
- Connectez-vous à Google Search Console et sélectionnez un site web.
- Rendez-vous dans
Exploration
>Statistiques d'exploration
. Vous pourrez y visualiser le nombre de pages explorées par Google par jour.
Vous pouvez également analyser la répartition du crawl par :
- Entête HTTP
- Type de fichier
- Objectif
- Type de GoogleBot
Se référer aux logs du serveur
Il est particulièrement intéressant de consulter les logs de votre serveur pour observer la fréquence à laquelle les robots d’exploration de Google accèdent à votre site web. Comparer ces statistiques avec celles rapportées dans Google Search Console s’avère être une démarche pertinente. Il est toujours recommandé de se baser sur plusieurs sources.
De nombreuses outils existent pour réaliser une Analyse de Log :
- Seolyzer : 100% français, facile à prendre en main, un excellent rapport qualité/prix
- Botify
- Oncrawl
- SEO Log File Analyser (même éditeur que Screaming Frog Spider)
Pour en savoir +, n’hésitez pas à lire notre dossier sur l’analyse de Log.
Comment optimiser votre budget de crawl ?
Optimiser votre budget de crawl revient à veiller à ce qu’aucune partie de ce budget ne soit gaspillée. Fondamentalement, il s’agit de résoudre les causes du gaspillage du budget de crawl. En analysant de nombreux sites web, nous avons constaté un schéma récurrent : la plupart d’entre eux rencontrent les mêmes types de problèmes.
Les raisons les plus courantes que nous rencontrons pour justifier le gaspillage du budget de rampe d’accès :
- URL accessibles avec paramètres : Un exemple d’URL avec paramètres est
https://www.example.com/toys/cars?color=black.
Dans ce cas, le paramètre est utilisé pour enregistrer la sélection d’un visiteur dans un filtre de produits. - Contenu dupliqué : Les pages qui sont très similaires, ou exactement les mêmes, sont appelées « contenu dupliqué ». Le contenu dupliqué fait référence à plusieurs sites web dont le contenu est identique ou très similaire. Exemples : pages copiées, résultats de recherche et les pages de marquage.
- Contenu de faible qualité : Pages dont le contenu est très limité ou qui n’apportent aucune valeur ajoutée.
- Liens brisés et liens de redirection : Les liens cassés (erreurs 404) sont des liens renvoyant à des pages qui n’existent plus, et les liens de redirection (301 ou 302) sont des liens vers des URL qui redirigent vers d’autres URL.
- Inclure des URL incorrectes dans les sitemaps XML : Les pages non indexables et les non-pages telles que les URL 3xx, 4xx et 5xx ne doivent pas être incluses dans votre sitemap XML.
- Pages avec un temps de chargement élevé : Les pages qui prennent beaucoup de temps à charger, ou qui ne se chargent pas du tout, ont un impact négatif sur votre budget d’exploration, car c’est un signe pour les moteurs de recherche que votre site web ne peut pas traiter la requête, et ils peuvent donc ajuster votre limite d’exploration. Cette piste est d’autant plus importante depuis l’arrivée des Core Web Vitals il y a quelques années.
- Nombre élevé de pages non indexables : Le site web contient un grand nombre de pages non indexables.
- Mauvaise structure de liens internes : Si votre structure de liens internes n’est pas correcte, les moteurs de recherche risquent de ne pas accorder suffisamment d’attention à certaines de vos pages. Une structure de site claire et efficace, un plan du site XML bien conçu et des temps de réponse rapides sont autant d’éléments qui faciliteront la tâche à Google. Ne sous-estimez pas cet aspect souvent mal compris du référencement.