Archives de Catégorie: Ne pas oublier

Gérer l’accès aux différentes parties de votre site

user-agent

Gérez l'accès à votre site

Il existe un outil d’une simplicité désarmante : le fichier robots.txt

Beaucoup moins intimidant qu’il ne semble au premier abord, ce fichier indique aux moteurs les zones à ignorer dans votre site, basé sur l’arborescence du site. Vous indiquez aux moteurs d’ignorer les zones que vous souhaitez garder privée

Plus précisément, ce fichier s’adresse à toutes les araignées (aussi appelés « spider » ou « user-agent ») de tous les systèmes automatisés de recherche et d’analyse sur internet. De nombreux services qui analysent, par exemple, les liens brisés, sont bien plus utiles si ils ont accès à l’ensemble du contenu du site.

Par exemple, vous avez probablement une section « /admin/ » qui est utilisé par vous pour gérer les commandes de vos clients. Vous avez peut-être aussi une zone « /employé/ », une zone « /client/ », une zone « /test/ » pour préparer les évolutions de vos produits ou les pages en préparation, etc etc.

Il y a aussi certainement un répertoire « /css/ », un répertoire « /image/ », tout simplement parce que selon la construction du site, ces répertoires sont nécessaires à son fonctionnement.

Vous avez, bien sûr, en gestionnaire responsable, sélectionné des droits d’accès à ces zones. Vous avez donc confiance que les moteurs n’analysent que le contenu des pages accessibles au grand public.

Les moteurs analysent tout ce qui leur est accessible, et n’aiment pas les erreurs. Ils vont essayer d’entrer dans la section « admin » et n’y ayant pas accès, mettront un petit point noir, en quelque sorte, parce qu’il y a potentiellement du contenu douteux en ligne. Puisque c’est une erreur très répandue, vous ne perdrez pas au positionnement, mais les moteurs vont continuer d’essayer d’y entrer. Il suffit d’une malheureuse erreur de sécurité, et votre contenu d’entreprise sera indexé et disponible à l’ensemble des internautes.

Et puis, est-ce que vous voulez vraiment que les araignées perdent du temps à analyser les images des différents boutons du site plutôt que le contenu pertinent?

Le fichier robots.txt est vraiment votre ami dans la gestion des zones publiques et privées de votre site. Ce fichier a été inventé dans ce but et est d’une utilisation simple à dormir.

D’abord, il s’agit d’un simple fichier txt (texte), exactement comme ceux que vous pouvez créer, dans windows, en cliquant droit dans n’importe quel dossier de votre ordinateur (que ce soit « mes documents », « bureau » ou n’importe quel autre) et en choisissant « nouveau » puis « document texte ». Ces fichiers ont une extension « txt ».

Facile, non?

Si vous n’avez jamais vu de fichier qui se termine par .txt, c’est vraisemblablement que vous avez demandé à windows de masquer les extensions des fichiers dont le type est connu. Décochez vite cette option infantilisante dans les options des dossiers, volet affichage, et profitez-en pour vérifier les autres options agaçantes que vous pourriez changer.

Quand vous ouvrez un fichier robots.txt, vous pouvez voir du texte précédé de #. Ce texte sera ignoré par les araignées. Ce peut être des notes concernant le créateur du fichier, la date de modification, ainsi de suite.

Laissez une ligne vide et copiez le texte suivant :

User-agent:

C’est le signal pour les araignées de porter attention à ce qui suit.

Si, par exemple, vous êtes abonné à un service de validation de liens brisés, et vous souhaitez qu’il ait accès à tout le contenu, vous pouvez indiquer son nom. Vous avez besoin du nom de l’araignée que vous devez autoriser. Je vous suggère le site User-agents.org qui répertorie un nombre impressionnant d’araignées. Sinon, le service où vous êtes abonné pourra vous le fournir.

Vous devez indiquer à ces araignées spécifiques leur droit de passage. Vous inscrirez donc les lignes suivantes dans votre fichier robots.txt :

User-agent: nom-d-araignée
Disallow: /admin
Disallow: /client
Disallow: /test
Disallow: /employés

Ces lignes s’adressent à l’araignée et lui indiquent qu’elle peut visiter tout le site, sauf les sections admin, client, test et employés. Le répertoire /image et /css est accessible, ce qui permet à cette araignée de signaler que certaines images ont été effacées, ou qu’il y a des erreurs dans les CSS. Vous pourrez ainsi y faire apporter les corrections nécessaires.

Supposons que vos êtes abonné à un service qui doit surveiller les modifications dans une zone sécurisée. Vous avez préalablement fourni un code d’accès à ce service pour la zone sécurisée. Vous allez laisser passer une ligne et inscrire :

User-agent: araignée_sécurisés

Disallow:

Vous n’inscrivez rien à côté de Disallow dans ce cas, parce que vous ne voulez pas la limiter.

Vous laisserez passer une autre ligne, et vous allez écrire une autre séquence :

User-agent: *
Disallow: /img
Disallow: /css
Disallow: /admin
Disallow: /client
Disallow: /test
Disallow: /employés

Cela indiquera à tous les autres moteurs les répertoires à ignorer. Cette séquence qui s’adresse à toutes les araignées restantes doit être la dernière. C’est tout pour le contenu, plus qu’à sauvegarder.

Il reste une dernière étape simple : vous allez déposer le robots.txt juste créé dans le répertoire qui est à la racine de votre site, à l’endroit où se trouve la page d’accueil. Les araignées vont automatiquement vérifier la présence du fichier et le lire avant de continuer.

Vous avez établi des zones d’autorisation personnalisée selon vos besoins et la structure du site. Félicitation!

Maintenant que je vous ai expliqué à quel point le fichier robots.txt peut vous simplifier la vie, sachez que les araignées ne sont pas obligées de respecter ces instructions. C’est une convention internationale, pas une obligation de l’utiliser. Par exemple, un araignée créer pour copier intégralement le contenu de votre site ignorera le robots.txt et copiera tout ce qui n’est pas protégé par mot de passe.

De plus, tout le monde peut lire un fichier robots.txt, il suffit d’ajouter son nom juste après le dns. Vous avez indiqué à toute une colonie de hacker que vous avez une zone admin, et si vous ne la sécurisez pas, la porte est grande ouverte.

Le robots.txt ne vous protègera pas des hackers, sa fonction n’en est pas une de sécurité, mais bien de gestion de l’accès de votre site par les araignées. Ce qu’il fait très efficacement par ailleurs.

Poster un commentaire

Classé dans Conception, Ne pas oublier, robots, Technicalitées

Page d’erreur personnalisée

Pour un internaute aguerri, la présence (ou l’absence) d’une page d’erreur correctement configurée se remarque.

Il y a un millions d’erreur possibles sur un site, plus il existe depuis longtemps, plus les liens qui mènent vers le site risquent de ne mener nulle part. L’internaute peut taper l’adresse et faire une erreur, la page référée n’existe plus (une bonne vieille redirection à chaque fois que vous supprimez une page aide tout de même beaucoup), des liens ont été changés et vous avez oublié de les corriger, blablabla.

Un site un tant soit peu complexe et/ou ancien et/ou sérieux se doit de posséder une page d’erreur personnalisée. Les autres ont intérêt à s’y mettre.

Certaines peuvent être très intéressantes, au design original, au point d’attirer réellement des visiteurs vers le site, je vous suggère, à ce niveau, de faire une recherche toute simple « erreur 404 » dans n’importe quel moteur. Certaines de ces pages débordent d’humour et valent le détour. Il y a des concours de design autours de cette page mal aimée, et on peut y trouver beaucoup d’inspiration.

La page d’erreur est la seconde « ancre » la plus importante d’un site, après la page d’accueil. Au fil de la navigation, les probabilités sont élevées que vous en ayez besoin. Les internautes qui viennent vous visiter, inévitablement, y seront confrontée. Si ils arrivent sur une page d’erreur standard de leur navigateur, il est probable qu’ils quitteront votre site et chercheront ailleurs. C’est une occasion manquée trop fréquente pour un effort somme toute mince.

On doit y retrouver:

-Un lien vers la page d’accueil

-Un lien vers chaque sections habituellement recherchée mis en évidence dans le corps de la page

-Un lien vers le plan de site

-Un lien vers la page « nous joindre »

-On y conserve les éléments de navigation habituels du site (bandeau, bas de page, gauche et/ou droite du proforma de tout le site)

On suggère généralement d’y encourager les internautes à signaler les liens brisés. Je ne suis pas d’accord. Cela revient, pour un entraineur, à faire signaler les erreurs de ses joueurs par les spectateurs. Pire: c’est inefficace parce que personne ou presque ne les signalent et que quand un lien brisé est signalé, cela reste le plus souvent lettre morte. De plus c’est inapproprié. C’est à vous de veiller à trouver les liens brisés avant l’internaute, point.

Prenez note que limiter l’accès à la page d’erreur personnalisée aux seules erreurs 404 est en soi une erreur. Construire une page d’erreur personnalisée et ne pas l’appliquer à tout les types d’erreurs équivaut à ne pas en faire du tout.

Et portez attention aux multiples erreurs qui peuvent survenir selon le type de programmation que vous utilisez. Il est fréquent de trouver dans les pages les plus vues des erreurs qui ont échappé à la configuration standard. Par exemple, en typo 3, une erreur de ce type: http//exemple.net/index.php?id=54545454. Cet index (54545454) n’étant lié à aucune page, la page d’erreur personnalisée s’affichera. Mais, avec le même nom de domaine, la page http//exemple.net/ndjklfsdkn renvoie à la page d’erreur par défaut du navigateur. Il faut donc aussi penser à cet aspect: inclure toutes les erreurs sur le nom de domaine.

N’oubliez pas de la configurer de manière à ce que le serveur renvoie bien l’état HTTP 404. Les moteurs sauront à quoi s’en tenir et n’indexeront pas cette page dans les résultats de recherche. Honnêtement, c’est plutôt humiliant de voir sa vraie page d’erreur apparaitre dans les résultats de recherche avant la page d’accueil.

Poster un commentaire

Classé dans Ne pas oublier, Page d'erreur