Il existe un outil d’une simplicité désarmante : le fichier robots.txt
Beaucoup moins intimidant qu’il ne semble au premier abord, ce fichier indique aux moteurs les zones à ignorer dans votre site, basé sur l’arborescence du site. Vous indiquez aux moteurs d’ignorer les zones que vous souhaitez garder privée
Plus précisément, ce fichier s’adresse à toutes les araignées (aussi appelés « spider » ou « user-agent ») de tous les systèmes automatisés de recherche et d’analyse sur internet. De nombreux services qui analysent, par exemple, les liens brisés, sont bien plus utiles si ils ont accès à l’ensemble du contenu du site.
Par exemple, vous avez probablement une section « /admin/ » qui est utilisé par vous pour gérer les commandes de vos clients. Vous avez peut-être aussi une zone « /employé/ », une zone « /client/ », une zone « /test/ » pour préparer les évolutions de vos produits ou les pages en préparation, etc etc.
Il y a aussi certainement un répertoire « /css/ », un répertoire « /image/ », tout simplement parce que selon la construction du site, ces répertoires sont nécessaires à son fonctionnement.
Vous avez, bien sûr, en gestionnaire responsable, sélectionné des droits d’accès à ces zones. Vous avez donc confiance que les moteurs n’analysent que le contenu des pages accessibles au grand public.
Les moteurs analysent tout ce qui leur est accessible, et n’aiment pas les erreurs. Ils vont essayer d’entrer dans la section « admin » et n’y ayant pas accès, mettront un petit point noir, en quelque sorte, parce qu’il y a potentiellement du contenu douteux en ligne. Puisque c’est une erreur très répandue, vous ne perdrez pas au positionnement, mais les moteurs vont continuer d’essayer d’y entrer. Il suffit d’une malheureuse erreur de sécurité, et votre contenu d’entreprise sera indexé et disponible à l’ensemble des internautes.
Et puis, est-ce que vous voulez vraiment que les araignées perdent du temps à analyser les images des différents boutons du site plutôt que le contenu pertinent?
Le fichier robots.txt est vraiment votre ami dans la gestion des zones publiques et privées de votre site. Ce fichier a été inventé dans ce but et est d’une utilisation simple à dormir.
D’abord, il s’agit d’un simple fichier txt (texte), exactement comme ceux que vous pouvez créer, dans windows, en cliquant droit dans n’importe quel dossier de votre ordinateur (que ce soit « mes documents », « bureau » ou n’importe quel autre) et en choisissant « nouveau » puis « document texte ». Ces fichiers ont une extension « txt ».
Si vous n’avez jamais vu de fichier qui se termine par .txt, c’est vraisemblablement que vous avez demandé à windows de masquer les extensions des fichiers dont le type est connu. Décochez vite cette option infantilisante dans les options des dossiers, volet affichage, et profitez-en pour vérifier les autres options agaçantes que vous pourriez changer.
Quand vous ouvrez un fichier robots.txt, vous pouvez voir du texte précédé de #. Ce texte sera ignoré par les araignées. Ce peut être des notes concernant le créateur du fichier, la date de modification, ainsi de suite.
Laissez une ligne vide et copiez le texte suivant :
User-agent:
C’est le signal pour les araignées de porter attention à ce qui suit.
Si, par exemple, vous êtes abonné à un service de validation de liens brisés, et vous souhaitez qu’il ait accès à tout le contenu, vous pouvez indiquer son nom. Vous avez besoin du nom de l’araignée que vous devez autoriser. Je vous suggère le site User-agents.org qui répertorie un nombre impressionnant d’araignées. Sinon, le service où vous êtes abonné pourra vous le fournir.
Vous devez indiquer à ces araignées spécifiques leur droit de passage. Vous inscrirez donc les lignes suivantes dans votre fichier robots.txt :
User-agent: nom-d-araignée
Disallow: /admin
Disallow: /client
Disallow: /test
Disallow: /employés
Ces lignes s’adressent à l’araignée et lui indiquent qu’elle peut visiter tout le site, sauf les sections admin, client, test et employés. Le répertoire /image et /css est accessible, ce qui permet à cette araignée de signaler que certaines images ont été effacées, ou qu’il y a des erreurs dans les CSS. Vous pourrez ainsi y faire apporter les corrections nécessaires.
Supposons que vos êtes abonné à un service qui doit surveiller les modifications dans une zone sécurisée. Vous avez préalablement fourni un code d’accès à ce service pour la zone sécurisée. Vous allez laisser passer une ligne et inscrire :
User-agent: araignée_sécurisés
Disallow:
Vous n’inscrivez rien à côté de Disallow dans ce cas, parce que vous ne voulez pas la limiter.
Vous laisserez passer une autre ligne, et vous allez écrire une autre séquence :
User-agent: *
Disallow: /img
Disallow: /css
Disallow: /admin
Disallow: /client
Disallow: /test
Disallow: /employés
Cela indiquera à tous les autres moteurs les répertoires à ignorer. Cette séquence qui s’adresse à toutes les araignées restantes doit être la dernière. C’est tout pour le contenu, plus qu’à sauvegarder.
Il reste une dernière étape simple : vous allez déposer le robots.txt juste créé dans le répertoire qui est à la racine de votre site, à l’endroit où se trouve la page d’accueil. Les araignées vont automatiquement vérifier la présence du fichier et le lire avant de continuer.
Vous avez établi des zones d’autorisation personnalisée selon vos besoins et la structure du site. Félicitation!
Maintenant que je vous ai expliqué à quel point le fichier robots.txt peut vous simplifier la vie, sachez que les araignées ne sont pas obligées de respecter ces instructions. C’est une convention internationale, pas une obligation de l’utiliser. Par exemple, un araignée créer pour copier intégralement le contenu de votre site ignorera le robots.txt et copiera tout ce qui n’est pas protégé par mot de passe.
De plus, tout le monde peut lire un fichier robots.txt, il suffit d’ajouter son nom juste après le dns. Vous avez indiqué à toute une colonie de hacker que vous avez une zone admin, et si vous ne la sécurisez pas, la porte est grande ouverte.
Le robots.txt ne vous protègera pas des hackers, sa fonction n’en est pas une de sécurité, mais bien de gestion de l’accès de votre site par les araignées. Ce qu’il fait très efficacement par ailleurs.