Aspirateur de site Web en JAVA

eXystenZ Messages postés 4 Date d'inscription jeudi 15 avril 2010 Statut Membre Dernière intervention 16 avril 2010 - 4 nov. 2009 à 14:20
cs_talha Messages postés 1 Date d'inscription samedi 13 octobre 2007 Statut Membre Dernière intervention 27 janvier 2010 - 27 janv. 2010 à 11:40
Bonjour à tous,

J'aimerai coder un aspirateur de sites web en JAVA (c'est mal je sais, mais je ne compte pas l'utiliser à des fins diaboliques, c'est simplement pour m'entrainer car ça me permettra de mettre en pratique pas mal de choses :) ).

En gros il faudrait que ça puisse stocker en local tout ou une partie d'un site web spécifié par l'utilisateur.

J'ai quelques difficultés pour commencer. J'ai ce qu'il faut comme fonction pour récupérer du code HTML mais existe-t-il des fonctions qui récupèrent des pages entières telles quel ?

Merci d'avance pour les informations que vous pourrez m'apporter :)

exy.

4 réponses

cs_talha Messages postés 1 Date d'inscription samedi 13 octobre 2007 Statut Membre Dernière intervention 27 janvier 2010 1
27 janv. 2010 à 11:40
Salut tout le monde !
Je pense que cela permettra de d'aspirer des sites web statiques. Par contre quand il y a des données téléchargées et affichées automatiquement sur la page web (ajax et javascript par exemple) votre solution ne mènera à rien. En effet, les données n'existent pas sur le code source de la page web, il y a que des fonctions javaScript.
kirua12 Messages postés 1155 Date d'inscription samedi 17 janvier 2004 Statut Membre Dernière intervention 29 avril 2011 7
5 nov. 2009 à 09:54
Salut,

à partir de la classe java.net.URL, tu peux récupérer le flux d'une page et donc la télécharger
eXystenZ Messages postés 4 Date d'inscription jeudi 15 avril 2010 Statut Membre Dernière intervention 16 avril 2010
5 nov. 2009 à 18:40
Yep ça ça marche pour prendre le code HTML mais j'aimerai plutôt quelque chose qui puisse vraiment stocker en local toute une page (img et autres compris si possible).

Je suis tombé sur une classe: HTMLDocument qui semble permettre de parcourir un site web de manière itérative.
Y a-t-il quelque chose à creuser dans cette direction à votre avis ?
kirua12 Messages postés 1155 Date d'inscription samedi 17 janvier 2004 Statut Membre Dernière intervention 29 avril 2011 7
6 nov. 2009 à 09:22
donc tu veux faire un aspirateur de sites à partir d'une classe qui aspire un site ?
La classe HTMLDocument te permet de parcourir un document html mais ne télécharge rien, c'est à toi de parser les balises pour télécharger les fichiers liés
Rejoignez-nous