Utilisation du Fichier ROBOTS.TXT


Information : Le fichier robots.txt vous permet de restreindre l’accès aux Moteurs de Recherche certaines pages ou dossiers de votre site web. Ce qui vous permettra de contrôler l'information indexer par le moteur de recherche de votre site web.


 

 

1. Vous devez créer un fichier texte (.txt) nommé : robots.txt.

 

2. Vous devez insérer les commandes désirées dans ce fichier pour informer aux moteurs de recherche ce qui doit être indexé ou non.

 

3. Vous insérez votre fichier dans le "root" de votre site web. Exemple: Dans le dossier /public_html/ (linux) ou /www/ (Windows).

Vous devriez donc voir votre fichier si vous taper: http://www.votredomaine.tld/robots.txt

 

4. Voici un exemple de ligne de commande.

 

Exemple:

User-agent: *
Disallow: /cgi-bin/

 

 

Dans cette exemple vous empêcher "Tous" les moteurs de recherche d'indexer le contenu dans le dossier /cgi-bin/.

 

- Sur la 1ere ligne User-agent: L'étoile * indique tout les moteurs de recherche.

- Sur la ligne 2e ligne Disallow: vous inscrivez le nom du dossier avec les bars oblique.

 

 

5. Voici une petite liste des commandes de la 1ere ligne utilisés:

 

User-agent: *

Inclut tous les moteurs de recherche

User-agent: Googlebot

Inclut uniquement le moteur de recherche Google

User-agent: MSNBot

Inclut uniquement le moteur de recherche MSN

User-agent: Slurp

Inclut uniquement le moteur de recherche Yahoo!

User-agent: Fast

Inclut uniquement le moteur de recherche Lycos et Fast/Alltheweb

 

 

 

6. Voici une petit liste des commandes possible de la 2e ligne:

 

Disallow: /

Permet d'exclure toutes les pages du site web (aucune aspiration possible).

Disallow:

Permet de n'exclure aucune page du serveur (aucune contrainte).

Un fichier robots.txt vide ou inexistant aura une conséquence identique.

 

 

Disallow: /cgi-bin/

Exclus tous ce qui contient le dossier cgi-bin d'être indexé.

Disallow: /*.[extension de fichier]$

Exclus tous les types d'extension de fichier indiqué d'être indexé.

Ex: Disallow: /*.pdf$

 

 

 

7. Vous pouvez inscrire plusieurs ligne Disallow comme dans cette exemple:

 

User-agent: *
Disallow: /cgi-bin/

Disallow: /images/

Disallow: /secure/

 

Donc, dans ce cas ci vous excluez le contenue de ces 3 dossiers de Tous les moteurs de recherche.

 

 

8. Vous pouvez aussi personnaliser et commander aux différents moteurs de recherche:

 

User-agent: *
Disallow:

User-agent: Googlebot
Disallow: /cgi-bin/

 

 

Dans ce cas ci vous autorisez en premier lieu tous les moteurs de recherche a tous indexer le site web. Mais en 2e lieu vous interdisez a Google le dossier /cgi-bin/.

 

N'oubliez pas qu'il faut inscrire des balises META dans chaque page qui sera indexé pour informer le robots: (voici quelques exemples)

 

<META NAME="MSNBot" CONTENT="noindex" />

Interdit MSNBot d'indexer une page.

<META NAME="*" CONTENT="noindex" />

Interdit tous les robots d'indexer une page.

<META NAME="Googlebot" CONTENT="nofollow" />

Interdit GoogleBot de suivre des liens sur une page.

<META NAME="robots" CONTENT="nofollow" />

Interdit tous les robots de suivre des liens sur une page.

<META NAME="MSNBot" CONTENT="noindex,nofollow" />

Interdit MSNBot d'indexer et de suivre des liens.

<META NAME="GoogleBot" CONTENT="nocache" />

<META NAME="GoogleBot" CONTENT="noarchive" />

Interdit MSNBot de mettre en cache une page.