Recupérer le contenu html d'1 site

sakusou Messages postés 1 Date d'inscription mardi 30 juin 2009 Statut Membre Dernière intervention 13 juillet 2009 - 13 juil. 2009 à 04:23
xeolin Messages postés 336 Date d'inscription samedi 26 novembre 2005 Statut Membre Dernière intervention 8 novembre 2011 - 30 août 2009 à 14:06
salut à tous,

 Je dois récupérer le contenu html d'un site web à partir de l'url en python, pour faire ça, j'ai pensé à d'abord récupérer l'arborescence du site, puis faire une boucle afin de recupér le contenu html à aprtir des liens, mais en python c la cata, je ne sais pas comment le faire .

merci d'avance

1 réponse

xeolin Messages postés 336 Date d'inscription samedi 26 novembre 2005 Statut Membre Dernière intervention 8 novembre 2011 2
30 août 2009 à 14:06
utilise "urllib2"
il y a une fonction pour ouvrir une page, puis isole les balises et qui contiennent les urls et recommence.

Il existe un logiciel appelé HTTtrack qui fait la même chose.


01001110 00110011 01000001 01110010 By N3Arsee me @ www.N3Ar.co.cc
0
Rejoignez-nous