Arborescence Site web [Résolu]

Signaler
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Statut
Membre
Dernière intervention
26 juillet 2013
-
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Statut
Membre
Dernière intervention
26 juillet 2013
-
Salut tous:

Je me demande si c'est possible de tracer (lister) l'arborescence d'un site web donné, pour en savoir les noms des fichiers et des répertoires qu'il contient.

Vos propositions sont les bienvenues .

4 réponses

Messages postés
332
Date d'inscription
mardi 12 juillet 2005
Statut
Membre
Dernière intervention
17 juillet 2010

Salut,
ce que tu recherche s'appelle s'appelle un aspirateur web (en fait un aspirateur web télécharge toutes les pages d'un site pour pouvoir le consulter en local, donc c'est pas exactement ce que tu cherche).
Sinon, tu peux pas réelement connaitre tous les fichiers d'un serveur (heureusement), si certaines fichiers n'ont aucun rapport avec le reste tu ne saura pas qu'ils existent. En effet pour lister l'aboressence, il faut partir de la page d'accueil du site, et noter tous les liens de la page (y compris image, feuille de style ....), puis regarder tour à tour chaque nouvelle page découverte....
Il faut en plus vérifier les urls, et ne pas les suivres quand les liens vont vers l'extérieur (sinon tu va essayer de lister tous le web....)

http://kysicurl.free.fr/
Messages postés
694
Date d'inscription
lundi 5 décembre 2005
Statut
Membre
Dernière intervention
8 janvier 2014
15
Il n'y a pas de solution toute faite pour connaitre l'arborescence d'un site. Il faut l'explorer et suivre les liens les uns après les autres.

On peut envisager deux solutions partielles :

- détecter le sitemap et s'en servir pour l'exploration mais il n'existe aucun standard et certains sitemap sont des images.
- utiliser le fichier robot.txt (http://www.robotstxt.org/) quand celui ci est présent (faire une requête de ce fichier à la racine du site et éventuellement à chaque changement de branche) et s'en servir pour connaitre une partie de l'arborescence.
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Statut
Membre
Dernière intervention
26 juillet 2013
36
Je pense que j'aurais besoin d'un bon parseur HTML pour y arriver.

Encore merci ....
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Statut
Membre
Dernière intervention
26 juillet 2013
36
Salut:

Tu l'as deviné, je chercher (ICA) à faire une petit aspirateur web donc j'ai pensé que je dois connaître comme se structure les fichiers et les répertoires sur le serveur pour créer une structure pareille sur la machine cible.