Pourquoi l’analyse des logs est-elle utile au SEO ?

Lucas Perrosé . 20 août 2015

La recette d’un bon référencement inclut un très grand nombre d’ingrédients, dont certains animent plus ou moins fort la communauté. La question des logs est depuis quelques temps sous le feu des projecteurs, puisqu’elle offre un panel de données fort utiles au SEO, sur lesquelles nous avons voulu revenir.

Quid des logs ?

Un fichier logs constitue une liste de toutes les requêtes adressées au serveur d’un site. Lorsqu’un internaute y navigue, par exemple, il ajoute une ligne au fichier des logs avec plusieurs informations (adresse IP, date de connexion, URL visitée,…). Dans une logique SEO, il devient très intéressant de suivre un visiteur bien particulier : Google. Son robot laisse en effet une « trace » lorsqu’il crawl le web et le repérer dans les logs permet de connaitre tous ses déplacements.

fichie logs — Un exemple de fichiers de logs avec, à gauche, les adresses IP de connexion.

Le crawl indispensable au référencement naturel

La visite d’un site par le robot de Google est en toute logique obligatoire pour référencer un site. Mais la « qualité » du crawl va influer sur celle du SEO. En effet, lorsqu’un site est bien structuré et qu’il possède de bonnes performances de chargement, le robot navigue plus rapidement et facilement, ce qui lui permet d’indexer plus de pages en un temps imparti, de mieux percevoir les mises à jour et de revenir plus fréquemment. Les sites les mieux optimisés sont donc ceux qui plaisent le plus à Google, car ils exigent moins de ressources pour être parcourus. Ce qui explique, en partie, pourquoi la notion de crawl est une partie intégrante du travail de référencement.

Un vrai défi pour Google

S’il le pouvait, le moteur de recherche crawlerait chaque jour toutes les pages web. Mais le problème, c’est qu’il en est aujourd’hui incapable : Google ne peut pas faire passer son robot sur toutes les pages indexées à intervalle court, tout simplement parce qu’elles sont trop nombreuses. « Google a indexé 30 000 000 000 000 d’URL différentes »

Pour parvenir à crawler toutes ces pages tous les 3 mois, le robot devrait parcourir 700 millions de pages par seconde. Et c’est en soi une problématique car le crawl est l’assurance qualité de Google puisqu’il lui permet de garder un regard neuf sur les sites indexés, et lui évite ainsi de présenter de mauvais résultats dans ses SERP. Grâce au crawl, le moteur peut par exemple rapidement retirer des premiers résultats un site hacké dont le contenu est dégradé, évitant de proposer à ses utilisateurs un résultat de recherche néfaste. Mais cette réactivité est uniquement définie par la fréquence du crawl. Le moteur de recherche ne dispose pas aujourd’hui des ressources technologiques nécessaires pour un crawl intégral régulier. Il n’a pas non plus les moyens financiers d’assumer un tel rythme (installation du matériel, maintenance des serveurs,…), raison pour laquelle il incite les sites à être plus « faciles » à crawler en intégrant les performances et l’architecture web dans ses critères de positionnement. Et quand bien même Google parviendrait à ce stade, l’intensité du crawl présenterait un risque trop important pour les sites : pour tenir la cadence, le robot devrait crawler des millions de pages chaque seconde, engendrant des milliers de requêtes instantanées sur chaque site qui pourraient provoquer un crash des serveurs. Du coup, Google priorise et alloue des ressources plus importantes au crawl des sites sur les secteurs les plus concurrentiels.

Identifier les pages crawlées

En suivant le parcours du robot de Google, il est facile de connaitre le nombre de pages crawlées, ce qui permet de déceler d’éventuels problèmes et d’étudier la manière de les régler :

Total des pages d’un site	3 000
Total des pages crawlées	1 500
Total des pages actives (générant du trafic SEO)	1 000
Total des pages non crawlées	1 500

L’obtention de ces données conduit à deux analyses :

Le ratio pages crawlées/pages actives. Une différence de valeur indique que certaines pages crawlées par Googlebot n’apportent pas de trafic naturel, ce qui est problématique, puisque cela traduit un mauvais positionnement des pages visitées par les robots du moteur. C’est également une preuve que le crawl n’est pas le seul facteur de bon positionnement, sinon les deux valeurs seraient proches, sinon identiques. Il faut alors intervenir sur les pages crawlées mais inactives pour améliorer leur potentiel SEO (balisage, contenu, popularité, maillage) ;
Le ratio pages totales/pages non crawlées. Il est normal que Google ne passe pas sur toutes les pages d’un site, et le fait que certaines ne soient pas crawlées n’est pas problématique en soi. Là où le bât blesse, c’est quand des pages méritant d’être crawlées ne le sont pas, ce qui révèle un sérieux problème de performance ou une profondeur trop importante. Il faut donc savoir faire le tri entre les pages non crawlées, pour distinguer uniquement celles supposées l’être, et agir sur ces dernières.

Ce que rapporte l’optimisation du crawl en termes de référencement

L’analyse des logs et le travail sur la navigation du robot de Google est une part importante de l’optimisation SEO d’un site. En effet, en indiquant au moteur que telle ou telle page mérite d’être crawlée, ou en optimisant celles inactives, il est possible d’augmenter le positionnement d’un site sur davantage de requêtes. Dans notre exemple, en admettant que 500 pages sur les 1 500 non crawlées devraient l’être car elles possèdent un réel potentiel SEO, parvenir à les faire à nouveau « lire » par le robot permettra d’améliorer leur référencement (car il est impossible d’être bien positionné sans crawl, selon nos tests). Si de bonnes actions sont entreprises, ce sont 500 pages supplémentaires qui pourront remonter dans les SERP et engendrer des centaines voire des milliers de visites supplémentaires sur le site.

Comment éviter à des pages de ne plus être crawlées ?

Le niveau de profondeur d’une page influence sa fréquence de crawl : plus un contenu est profond dans un site, moins le robot le crawlera souvent. Il arrive cependant que des pages pertinentes créées au lancement d’un site se trouvent « enfouies » sous toutes les nouvelles, sans qu’elles aient pour autant perdu en qualité. Elles deviennent toutefois moins visibles pour Google qui pourra choisir de les délaisser, ce qui nuira à leur référencement. Il faut donc raccourcir au maximum le chemin vers les pages intéressantes, via par exemple des liens depuis la page d’accueil du site ou des suggestions de pages comme souvent à la fin d’articles de blogs. Mais réduire la profondeur des pages ciblées ne suffit pas. Il faut également s’assurer que divers liens pointent vers elles, et de manière régulière, faisant ainsi comprendre à Google et ses robots qu’elles sont pertinentes et donc nécessaires. Par exemple, la page des mentions légales sera moins souvent crawlée, alors qu’on la retrouve en général dans le footer d’un site, donc sur toutes ses pages et à une profondeur très faible. Toutefois, comme ce type de page ne reçoit aucun autre lien, le moteur comprend qu’il ne s’agit pas d’une page importante. La position même des liens pointant vers les pages ciblées impacte le crawl : le robot accordera plus d’importance à un lien placé dans le header qu’à un autre présent dans le footer (comme les mentions légales). Et bien évidemment, même si les pages sont crawlées tous les jours et sont au cœur d’un environnement de liens actif, leur référencement sera impossible sans présence d’un contenu de qualité, d’un balisage travaillé, de performances maximisées, d’une forte popularité, bref, de tous les autres éléments qui définissent un SEO efficace !

Quelques outils

Vous trouverez ci-dessous une liste non exhaustive d’outils bien utiles pour analyser les logs et repérer le passage du robot de Google. Tous ont leurs spécificités, mais l’important reste d’établir un dashbord des logs correspondant à vos besoins d’analyse :

Botify
Watussi
Kelo.gs
Kibana
CrawlTrack
Splunk