Restreindre l’accès aux robots pour optimiser votre référencement


Les robots sont livrés à eux même car ils indexent souvent des pages qui ne devraient pas être indexé, ou encore donne du poids à des pages qui ne devraient pas servir de point d’entré aux utilisateurs de votre site, comme par exemple une page profonde de troisième niveau qui a fait un buzz et qui a pris beaucoup (trop) de poids. Vous préféreriez voir vos utilisateurs rentrer sur des pages de premier niveau ou se trouve un résumez explicite de la thématique de votre site !! Les robots ont aussi la fâcheuse habitude d’indexer du duplicata de contenu puis de faire le mauvais choix entre les pages dupliquées. Alors comment résoudre ces différents problèmes qui font perdre du jus à votre site et désoriente vos utilisateurs qui accèdent à votre site directement par les pages de résultats des moteurs?

restreindre-acces-robots-pour-optimiser-referencement

Sommaire :

1. Le Tag canonical
2. Le robots.txt
3. Les Meta Tag des Robots

Prenons un exemple simple, imaginer un enfant en bas âge. Pour l’empêcher de faire des bêtises vous protégez vos prises de courant, vous cachez les produits inflammables dans un endroit qu’il ne peut atteindre, retirez tout objet tranchant de son environnement pour qu’il ne puisse pas se couper, et en même temps vous lui donnez des jouets éducatifs, mettez un jolie dessin animé éducatif à la télé. Maintenant vous pouvez le laisser seul vaquer à ses occupations.

C’est pareil pour les moteurs, ils sont comme de jeunes bébés, il faut les guider pour les empêcher d’accéder à certaines zones de votre site. Pour cela vous disposez d’outils. Je vais avec vous, décrire ces outils qui donneront du poids à vos pages qui doivent servir de point d’entré à vos utilisateurs et empêcher les moteurs d’indexer du contenu dupliqué.

1. Le Tag canonical

La balise canonique est une balise Meta placée dans l’en-tête HTML de la page web. Il donne au moteur des indications de recherche dont l’URL est la version canonique de la page en cours.

Le code ressemble à ceci:

<link rel="canonical" href="http://exemple.com/ma_page_canonique.htm">

Exemples
Si vous présentez des articles, vous avez souvent une page qui liste les articles avec le texte de l’article et un lien ancré vers l’article. Appliquer le canonicale parait ici judicieux, il vous faut simplement mettre sur cette page qui liste vos articles la balise canonique qui pointe sur votre home, et ainsi éviter aux moteurs d’indexer l’article plusieurs fois. Cela va donner du poids à votre home et laisser le champ libre aux moteurs pour indexer indépendamment votre article.

Dans ce cas beaucoup de référenceurs préféreront également ne pas utiliser le canonicale en mettant seulement une partie tronqué de l’article sur cette page qui liste les articles. C’est une technique judicieuse car l’on n’a pas de duplication de contenu et l’on obtient en supplément un double résultat dans les pages de résultats des moteurs. Si vous adoptez cette technique, je vous conseil de tronquer jusqu’à 90% de l’article sur la page qui liste les article et ne laisser que 10% à manger aux moteurs, histoire de les laisser gouter l’article sans le manger intégralement.

Un autre exemple pour l’application du canonical pourrait être la version mobile de votre site, pour éviter que Google n’indexe cette version, il est fort recommandé d’installer la balise canonicale vers la version non mobile du site.

Garder à l’esprit que le canonicale n’est pas une redirection 301 mais un indicateur pour les moteurs afin qu’ils suppriment les doublons de votre site et ne laissent qu’une seule url d’entrée. Regarder attentivement sur votre site tous les points d’entrées de vos pages de contenu, comme par exemple vos pages archives, vos pages de listes, votre sitemap XML… et ne laisser aux moteurs qu’une seule entrée à indexer.

2. Le robots.txt

Robots.txt permet un certain contrôle des accès par les robots de moteur de recherche à un site, mais robots.txt ne garantit pas qu’une page ne soit pas indexée. Il est à utilisé uniquement lorsque c’est nécessaire. Il est souvent utilisé pour empêcher les moteurs d’indexer vos pages périmées et autre page sessions. L’avantage est que ce fichier est enfantin à mettre en place. Par contre éviter de mettre vos pages admin dans ce fichier car c’est un point d’entré pour les hackeurs.
Je vous recommande de le placer sur votre site, même vide, mettez le!

3. Les Meta Tag des Robots

La balise Meta Robots est une instruction pour les robots des moteurs de recherche. La balise Meta Robots doit être placée dans l’en-tête HTML de la page web.

Le Meta Robot « noindex »

C’est de loin le tag le plus puissant pour empêcher un moteur d’indexer une page. Car au delà d’une indication c’est une instruction. L’avantage de ce Meta Robot est à la fois d’interdire aux Robots des moteurs d’interdire d’indexer des pages et de le laisser suivre les liens.
Ce Meta Robot est bien plus puissant qu’une simple indication du fichier robots.txt, et tant que vous n’utilisez pas de « nofollow » le jus des liens continue d’être propagé.

Exemple d’utilisation:
Imaginez que vous commenciez un annuaire, au début vos pages seront vide, il est alors judicieux de ne pas les indexer en plaçant un Meta « noindex » sur ces pages. Et si ces pages ne contiennent pas de pages profondes à indexer, alors ajouter également le Meta Robot « nofollow »

Comme ceci:

<meta name="robots" content="noindex,nofollow" />

Et voilà! Dans ce parcours pour empêcher les Robots des Moteurs d’indexer certaines pages, nous avons fait un grand tour d’horizon sur les différentes techniques à mettre en place. De mon coté je préfère de loin le Meta Tag « noindex » car il est pris en compte immédiatement par les Robots des moteurs et il laisse le jus se propager sur les autres pages.

Gardez le cap sur vos optimisations!