Question concernant le fichier robots.txt ...

Résolu
kamuikun Messages postés 9 Date d'inscription mercredi 7 octobre 2009 Statut Membre Dernière intervention 9 avril 2010 - 17 nov. 2009 à 13:07
kamuikun Messages postés 9 Date d'inscription mercredi 7 octobre 2009 Statut Membre Dernière intervention 9 avril 2010 - 18 nov. 2009 à 15:29
Bonjour,

J'ai une question concernant le fichier robots.txt, qui permet d'indiquer au bots des moteurs de recherche quelles urls ignorer... En fait j'aimerai comprendre comment fonctionnent ces bots, exemple :

J'ai un répertoire dans mon serveur, "includes", ce répertoire contient que des fichiers PHP, lu uniquement en local, non lisible à partir d'une url externe donc. Est ce une bonne idée d'ajouter dans le fichier robots.txt : Disallow: /includes/ ? alors que dans mon site, aucun lien externe ne pointe vers ces fichiers... J'aimerai donc savoir, si les bots obtiennent la liste de fichier uniquement en analysant la partie publique du site (et donc ne tomberont jamais sur ce répertoire include car aucun lien externe ne pointe vers ce répertoire), ou si les bots ont la possibilité d'obtenir la liste autrement (par exemple avec une liaison directe avec l'hébergeur ? )

ça parait assez inutile comme question, mais c'était surtout pour comprendre comment marche ce fichier.

Merci d'avance :)

2 réponses

TychoBrahe Messages postés 1309 Date d'inscription samedi 31 janvier 2009 Statut Membre Dernière intervention 5 juin 2013 12
18 nov. 2009 à 15:17
Salut,

Une sorte de "liaison directe avec l'hébergeur" serait illégale sans ton accord. Les bots ont tout autant de droit qu'un utilisateur classique. Pour en revenir à ton soucis, a mon sens il ne sert à rien de leur demander de ne pas indexer un dossier auquel ils n'ont pas accès, surtout si son existence n'est pas explicitée. En général un bot de référencement se contente des liens auxquels il a accès, mais certains (je crois que yahoo slurp le fait) essayent de "deviner" certains liens. Enfin même si un bot de référencement "devine" ton lien, il se mange une bonne 403 et on en parle plus. Bref, déjà qu'à la base le fichier robots.txt n'est pas forcément respecté, j'ai tendance à penser qu'il ne sert à rien de se prendre la tête avec, c'est juste un petit plus.
3
kamuikun Messages postés 9 Date d'inscription mercredi 7 octobre 2009 Statut Membre Dernière intervention 9 avril 2010
18 nov. 2009 à 15:29
OK, merci pour ta réponse :)
0
Rejoignez-nous