question concernant le fichier robots.txt ...Résolu

Question

Bonjour,

J'ai une question concernant le fichier robots.txt, qui permet d'indiquer au bots des moteurs de recherche quelles urls ignorer... En fait j'aimerai comprendre comment fonctionnent ces bots, exemple :

J'ai un répertoire dans mon serveur, "includes", ce répertoire contient que des fichiers PHP, lu uniquement en local, non lisible à partir d'une url externe donc. Est ce une bonne idée d'ajouter dans le fichier robots.txt : Disallow: /includes/ ? alors que dans mon site, aucun lien externe ne pointe vers ces fichiers... J'aimerai donc savoir, si les bots obtiennent la liste de fichier uniquement en analysant la partie publique du site (et donc ne tomberont jamais sur ce répertoire include car aucun lien externe ne pointe vers ce répertoire), ou si les bots ont la possibilité d'obtenir la liste autrement (par exemple avec une liaison directe avec l'hébergeur ? )

ça parait assez inutile comme question, mais c'était surtout pour comprendre comment marche ce fichier.

Merci d'avance :)

TychoBrahe · Accepted Answer

Salut,

Une sorte de "liaison directe avec l'hébergeur" serait illégale sans ton accord. Les bots ont tout autant de droit qu'un utilisateur classique. Pour en revenir à ton soucis, a mon sens il ne sert à rien de leur demander de ne pas indexer un dossier auquel ils n'ont pas accès, surtout si son existence n'est pas explicitée. En général un bot de référencement se contente des liens auxquels il a accès, mais certains (je crois que yahoo slurp le fait) essayent de "deviner" certains liens. Enfin même si un bot de référencement "devine" ton lien, il se mange une bonne 403 et on en parle plus. Bref, déjà qu'à la base le fichier robots.txt n'est pas forcément respecté, j'ai tendance à penser qu'il ne sert à rien de se prendre la tête avec, c'est juste un petit plus.

kamuikun · Answer

OK, merci pour ta réponse :)

Question concernant le fichier robots.txt ...

2 réponses

Votre réponse

Discussions similaires