Arborescence Site web [Résolu]

Messages postés
2333
Date d'inscription
samedi 28 février 2004
Dernière intervention
26 juillet 2013
- - Dernière réponse : Ombitious_Developper
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Dernière intervention
26 juillet 2013
- 29 mai 2007 à 09:13
Salut tous:

Je me demande si c'est possible de tracer (lister) l'arborescence d'un site web donné, pour en savoir les noms des fichiers et des répertoires qu'il contient.

Vos propositions sont les bienvenues .
Afficher la suite 

Votre réponse

4 réponses

Meilleure réponse
Messages postés
332
Date d'inscription
mardi 12 juillet 2005
Dernière intervention
17 juillet 2010
3
Merci
Salut,
ce que tu recherche s'appelle s'appelle un aspirateur web (en fait un aspirateur web télécharge toutes les pages d'un site pour pouvoir le consulter en local, donc c'est pas exactement ce que tu cherche).
Sinon, tu peux pas réelement connaitre tous les fichiers d'un serveur (heureusement), si certaines fichiers n'ont aucun rapport avec le reste tu ne saura pas qu'ils existent. En effet pour lister l'aboressence, il faut partir de la page d'accueil du site, et noter tous les liens de la page (y compris image, feuille de style ....), puis regarder tour à tour chaque nouvelle page découverte....
Il faut en plus vérifier les urls, et ne pas les suivres quand les liens vont vers l'extérieur (sinon tu va essayer de lister tous le web....)

http://kysicurl.free.fr/

Dire « Merci » 3

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources 89 internautes nous ont dit merci ce mois-ci

Commenter la réponse de cs_Kysic
Messages postés
719
Date d'inscription
lundi 5 décembre 2005
Dernière intervention
8 janvier 2014
6
3
Merci
Il n'y a pas de solution toute faite pour connaitre l'arborescence d'un site. Il faut l'explorer et suivre les liens les uns après les autres.

On peut envisager deux solutions partielles :

- détecter le sitemap et s'en servir pour l'exploration mais il n'existe aucun standard et certains sitemap sont des images.
- utiliser le fichier robot.txt (http://www.robotstxt.org/) quand celui ci est présent (faire une requête de ce fichier à la racine du site et éventuellement à chaque changement de branche) et s'en servir pour connaitre une partie de l'arborescence.

Dire « Merci » 3

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources 89 internautes nous ont dit merci ce mois-ci

Commenter la réponse de cs_AlexN
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Dernière intervention
26 juillet 2013
38
3
Merci
Je pense que j'aurais besoin d'un bon parseur HTML pour y arriver.

Encore merci ....

Dire « Merci » 3

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources 89 internautes nous ont dit merci ce mois-ci

Commenter la réponse de Ombitious_Developper
Messages postés
2333
Date d'inscription
samedi 28 février 2004
Dernière intervention
26 juillet 2013
38
0
Merci
Salut:

Tu l'as deviné, je chercher (ICA) à faire une petit aspirateur web donc j'ai pensé que je dois connaître comme se structure les fichiers et les répertoires sur le serveur pour créer une structure pareille sur la machine cible.
Commenter la réponse de Ombitious_Developper

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.