English version
Aïe ! robot !

Le fichier "robots.txt"

Le fichier "robots.txt" est destiné aux "spiders". Les spiders sont les programmes qui explorent le web et qui permettent aux moteurs de recherche de découvrir votre site et d'en analyser le contenu.


En bref ...

A quoi sert-il ?

Ce fichier vous permet de laisser des instructions aux spiders. Vous avez la possibilité :
- d'interdire l'exploration de votre site à certains spiders (également appelés "agents" ou "robots")
- d'interdire l'exploration de certaines pages de votre site aux spiders
- d'interdire l'exploration de certaines pages à certains spiders

Notez que la balise Meta nommée "robots" qui peut figurer dans chacune de vos pages peut également être utilisée pour interdire l'indexation d'une page. Voir à ce sujet Les balises Meta.

Syntaxe

La syntaxe acceptée par les robots offre un minimum de souplesse :
- les espaces sont facultatifs
- l'utilisation des majuscules ou minuscules est sans importance (on dit que la syntaxe n'est pas "case sensitive")

Les lignes doivent commencer par l'une des 3 options suivantes :

#

Il s'agit d'un commentaire. Tout ce qui suit ce caractère sera ignoré par les robots

User-Agent:

Cette mention peut être suivie du caractère * ou du nom explicite d'un robot existant

Disallow:

Cette mention peut être suivie d'UN SEUL nom de répertoire ou de fichier


La syntaxe typique est la suivante :

User-Agent: AAAAAAA
Disallow: BBBBBBB
Disallow: CCCCCC

User-Agent: AAAAAAA'
Disallow: BBBBBBB'
Disallow: CCCCCC

etc.......

où AAAAAAA et AAAAAAA' sont les noms des robots et BBBBBBB, BBBBBBB', CCCCCCC et CCCCCCC' les noms des fichiers et/ou des répertoires que l'on souhaite masquer (ne pas faire indexer) pour ces robots.

Si vous utilisez le caractère * à la place du nom de robot, les lignes suivantes seront considérées comme des interdictions d'indexage pour TOUS les robots.

Si vous utilisez le caractère / à la place du nom de fichier, AUCUN fichier du site ne sera indexé.


En détail ...

Faire un fichier robot.txt Construction du fichier robots.txt

L'utilitaire gratuit LinkSpirit, téléchargeable sur ce site, vous permet de créer ou d'éditer facilement les Meta-tags "robots" et le fichier "robot.txt".

Cet utilitaire procède à une vérification de la syntaxe de votre fichier Robots.txt en tenant compte des règles figurant sur :
http://www.robotstxt.org/wc/norobots.html

et de la liste des robots proposée sur :
http://www.robotstxt.org/wc/active/html/index.html

Si vous souhaitez procéder manuellement, il vous suffit de lancer n'importe quel éditeur texte (Bloc-notes par exemple) puis de créer un fichier texte (avec l'extension .txt).
Voici un exemple typique de ce que peut être le contenu du fichier robots.txt.

User-Agent: *
Disallow: /download/dwnld.php
Disallow: /sources/
Disallow: /admin/perso


Explications
a) La première ligne est composée de User-agent:* , elle indique aux robots (spiders) de n'importe quel moteur de recherche que l'accès au site est soumis aux limitations suivantes :
b) Disallow:/download/dwnld.php indique aux robots qu'ils ne doivent pas indexer la page "dwnld.php" située dans le dossier "download".
c) Disallow:/sources/ indique aux robots qu'ils ne peuvent indexer aucun des fichiers contenus dans le répertoire sources.
d) Disallow:/admin/perso/ indique aux robots qu'ils ne peuvent indexer aucun des fichiers contenus dans le répertoire admin/perso.

Note : Lors du transfert de ce fichier assurez-vous d'être en mode ASCII.

Attention Règles générales


a) Il doit exister un seul fichier robots.txt sur l'ensemble de votre site. Il doit être situé à la racine de votre site
b) Vous pouvez créer dans ce fichier plusieurs sections User-agent si vous souhaitez imposer des règles différentes à chaque moteur de recherche
c) Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
d) Inscrivez un seul nom de fichier ou de répertoire derrière la commande Disallow. La syntaxe Disallow: fichier1.htm,fichier2.htm n'est PAS autorisée. La syntaxe Disallow: /rep1/ /rep2/ /rep3/ n'est pas non plus autorisée.
e) Transférez votre fichier robots.txt en mode ASCII. De nombreux clients FTP modifient le code des fichiers .txt lorsqu'ils ne sont pas transférés en mode ASCII. Ceci est la cause des problèmes les plus fréquemment rencontrés avec les fichiers robots.txt.

 

Pour tous les moteurs Règles standards


a) L'astérisque (*) n'est acceptée que dans le champ User-agent. Les syntaxes Disallow: * ou Disallow: *.* ou Disallow: *.gifne sont PAS autorisées
b) Il n'existe pas de champs Allow:

 

Pour Google Règles Google


a) L'astérisque (*) et le dollars ($) peuvent être utilisés dans le champ Disallow. Ils permettent de masquer tous les fichiers d'un type particulier. Disallow: /*.gif$ masquera tous les fichiers .gif du site
b) Le champs Allow: existe et permet de gérer des exceptions à une interdiction générale.

ATTENTION : L'utilisation des règles propres à Google peuvent rendre votre fichier robots.txt incompréhensible aux autres robots si elles figurent dans une zone User-agent: *. Faites donc précéder ces instructions particulières d'un User-agent: Googlebot.

Pour en savoir plus sur les robots
cloaking et autres subtilités (réservées aux pros),
un excellent site : http://danzcontrib2.free.fr/pieges.php


Lisez également notre article sur
Les balises meta.


L'annuaire du webmaster Le design des sites Web


L'encyclopédie du Monde Apprendre les CSS en douceur


Vous pouvez recopier gratuitement le contenu de cette page sur votre site en respectant quelques conditions de bon sens.
Consultez notre page "Reprendre nos articles sur votre site".


Valid HTML 4.01 Transitional   Vérifier l'orthographe avec RankSpirit et "Le Patron"   Indice YooVi


Wikibis : le savoir à portée de clic.