vanpie

Choisissez votre couleur de page
S'inscrire au flux RSS du site ! Get Firefox!

Ne pas référencer certaines pages de mon site

Vous êtes en train de référencer votre site, mais vous ne voulez pas que les moteurs indexent toutes les pages de votre site. Deux solutions s'offrent à vous, la première assez généraliste mais pas très sécurisante et la deuxième assez longue pour vos gros sites :

Le fichier robots.txt

Ce fichier texte permet d'exclure certains moteurs ou de limiter le référencement de votre site. Il est placé à la racine de votre site: monsite.com/robots.txt. Il se présente comme ceci :

User-agent: *
Disallow: /photos/

La première ligne donne l'autorisation à tout les moteurs d'indexer votre site tandis que la deuxième interdit aux moteurs d'indexer le contenu du dossier photos. C'est à vous de le paramétrer comme vous le voulez. Par exemple, pour empêcher tout les moteurs sauf celui de Google d'indexer le contenu du dossier photos:

User-agent: *
Disallow: /photos/

User-agent: googlebot
Disallow:

Pourquoi cette méthode n'est pas très sécurisante ?

Supposons que vous désirez interdire l'accès au dossier admin de votre site comme ceci:

User-agent: *
Disallow: /admin/

Étant donné que ce fichier est toujours placé à la racine de votre site, une personne malintentionnée pourrait aller le lire et voir quel est le dossier d'administration de votre site. Pour ce dossier, je recommande la deuxième méthode.

La méthode du robots.txt peut être utilisée:

Le metatag "robots"

Cette balise HTML permet de guider les moteurs de recherche lors de l'indexation de votre site. Elle se place entre les balises head, comme ceci:

<meta name="robots" content="index, follow" /> Indexer la page et suivre les liens
<meta name="robots" content="noindex, follow" /> Ne pas indexer la page et suivre les liens
<meta name="robots" content="index, nofollow" /> Indexer la page et ne pas suivre les liens
<meta name="robots" content="noindex, nofollow" /> Ne pas indexer la page et ne pas suivre les liens
<meta name="robots" content="all" /> Tout indexer
<meta name="robots" content="none" /> Ne rien indexer

Sachant que la règle par défaut des moteurs est all ou index,follow, il est inutile de le spécifier. Par contre pour votre dossier d'administration du site, c'est la méthode la plus sûre contre les pirates, étant donné que les pages ne seront pas indexées ainsi que les liens qui seront dessus, elles ne seront pas présentes sur les différents moteurs de recherche. L'inconvénient de cette méthode, c'est qu'elle n'est pas généraliste, il faut mettre le métatag sur toutes les pages que vous ne désirez pas indexer. Bonne chance sur les gros sites ...

Liens utiles :

Rédigé par , le 27/08 à 01:02 PM