SELFHTML

Cornelie Müller-Gödecke / Friedrich von Randow:
Contrôle d'accès pour moteurs de recherche à l'aide d'un fichier robots.txt

Page d'information: vue d'ensemble

vers le bas Les auteurs
vers le bas Sens et but d'un fichier robots.txt
vers le bas Exemples

Bas de la page 

Les auteurs

Cornelie Müller-Gödecke

Adresse électronique: Adresse électronique avantart@compuserve.com
Présence Internet: Page en langue anglaise/Page en langue allemande http://www.avantart.com/

 

Friedrich von Randow

Adresse électronique: Adresse électronique F@Randow.com
Présence Internet: Page en langue allemande http://www.randow.com/

Il s'agit ici d'un article traduit de l'allemand par la rédaction de SELFHTML actuel. Veuillez poser vos questions relatives à cet article uniquement à son auteur, prenant compte que celui-ci ne maîtrise peut-être pas la langue française!

vers le hautvers le bas 

Sens et but d'un fichier robots.txt

Les catalogues Web (comme par exemple YAHOO) et les moteurs de recherche (comme par exemple ALTAVISTA) cherchent leur "nourriture" de différentes façons:

Le standard SRE, ou "Standard For Robots Exclusion" (=standard pour l'exclusion des moteurs de recherche), définit comment interdire aux "robots" l'accès à certaines pages ou, au contraire, comment nourrir ces programmes avec les informations désirées.

Ce standard fut développé en 1994 par Martijn Koster et présenté à l'association "Internet Engineering Task Force" pour en débattre. SRE n'est pas encore un standard officiel, mais la plupart des "robots" le respectent.

Selon le standard SRE, il suffit simplement de noter dans un fichier texte nommé robots.txt quelles sont les pages qui ne doivent en aucun cas être visitées par les moteurs de recherche. Il est également possible de définir que ces restrictions s'adressent soit à tous les programmes, soit uniquement à un ou plusieurs d'entre eux. Le fichier robots.txt doit se trouver dans le répertoire racine "root" du serveur (donc, dans le répertoire virtuel de base) - les programmes n'y prêtant attention que si le fichier est placé à cet endroit.
Tous les "robots" ne suivent pas les indications mentionnées dans le fichier robots.txt ou celles contenues dans les META. Il est donc impossible de voiler des informations secrètes de manière sûre. Mais de telles informations ne devraient avoir rien à venir faire sur la toile ou devraient être protégées par des mots de passe. Toutefois, il est de cette façon possible d'empêcher que certaines informations soient accessibles à un grand public.

vers le hautvers le bas 

Exemples:

Un fichier robots.txt se comporte de deux termes clé: User-agent (agent navigateur) et Disallow (anglais: to disallow = interdire).

User-Agent
Ici doit être indiqué le nom du moteur de recherche dont on veut influencer l'accès aux pages. Si vous désirez bloquer plusieurs "robots", il vous faut noter chaque indication sur une ligne différente.
En notant à cet endroit une astérisque (*) vous interdisez tous les moteurs n'ayant pas été déterminés sur une ligne antérieure.

Disallow
Notez derrière "Disallow" les chemins ou une ou plusieurs URL que les "robots" devront laisser de côté.

En outre, les commentaires sont permis. Tout ce qui sera noté derrière le signe dièse (#) sera ignoré et peut donc être utilisé pour des descriptions internes (commentaires).

Exemple 1:

# robots.txt for http://www.votredomaine.fr/
User-agent: * # S'adresse à tous les moteurs de recherche
Disallow: /mondevirtuel/plan/ # Interdiction d'accès à un répertoire déterminé
Disallow: /tmp/ # Interdiction d'accès à un répertoire déterminé

Exemple 2:

# robots.txt for http://www.votredomaine.fr/
User-agent: cybermapper # Interdit seulement au "robot" "Cybermapper"
Disallow: / # Ce moteur n'a donc le droit d'accès à rien.

Exemple 3:

# robots.txt for http://www.votredomaine.fr/
User-agent: * # S'adresse à tous les moteurs de recherche
Disallow: / # Aucun moteur n'a donc accès à quoi que ce soit.

Explication:

L'exemple suppose l'existence d'un domaine http://www.votredomaine.fr/. C'est le répertoire racine ("root"), donc le répertoire virtuel de base.

Dans le premier exemple sont concernés avec User-agent: * tous les moteurs de recherche. Il est donc interdit à tous les programmes avec Disallow: /mondevirtuel/plan/ et Disallow: /tmp/ de rechercher et d'indexer des adresses URL situées à l'intérieur de http://www.votredomaine.fr/mondevirtuel/plan/ et de http://www.votredomaine.fr/tmp/.

Dans l'exemple 2 n'est concerné avec User-agent: cybermapper qu'un "robot" déterminé. Il vous faut naturellement connaître le nom de celui-ci. Avec Disallow: /, il lui est interdit de rechercher et indexer quoi que ce soit de votre site http://www.votredomaine.fr/. La barre oblique représente donc le répertoire racine du site sur le serveur.

Le troisième exemple interdit à tous les moteurs de rechercher et indexer quoi que ce soit sur votre site http://www.votredomaine.fr/. Ceci est cependant peu judicieux et ne devrait être employé que dans des situations exceptionnelles.

Liens:

Vous trouverez sur la toile des informations supplémentaires aux adresses suivantes:

Page en langue anglaise http://www.robotstxt.org/wc/robots.html
Le site de Martijn Koster consacré aux moteurs de recherche

Page en langue anglaise http://www.robotstxt.org/wc/active.html
Liste de nombreux moteurs de recherche

Page en langue anglaise http://www.tidbits.com/tonya/
La page personnelle de Tonya Engst. Tonya Engst rédige depuis longtemps des articles consacrés au WWW pour le magazine TidBITS.

vers le haut

© 2001-2005 Seite Informations