Aspirateur de site Web en JAVA

Question

Bonjour à tous,

J'aimerai coder un aspirateur de sites web en JAVA (c'est mal je sais, mais je ne compte pas l'utiliser à des fins diaboliques, c'est simplement pour m'entrainer car ça me permettra de mettre en pratique pas mal de choses :) ).

En gros il faudrait que ça puisse stocker en local tout ou une partie d'un site web spécifié par l'utilisateur.

J'ai quelques difficultés pour commencer. J'ai ce qu'il faut comme fonction pour récupérer du code HTML mais existe-t-il des fonctions qui récupèrent des pages entières telles quel ?

Merci d'avance pour les informations que vous pourrez m'apporter :)

exy.

kirua12 · Answer

Salut,

à partir de la classe java.net.URL, tu peux récupérer le  flux d'une page et donc la télécharger

eXystenZ · Answer

Yep ça ça marche pour prendre le code HTML mais j'aimerai plutôt quelque chose qui puisse vraiment stocker en local toute une page (img et autres compris si possible).

Je suis tombé sur une classe: HTMLDocument qui semble permettre de parcourir un site web de manière itérative.
Y a-t-il quelque chose à creuser dans cette direction à votre avis ?

kirua12 · Answer

donc tu veux faire un aspirateur de sites à partir d'une classe qui aspire un site ?
La classe HTMLDocument te permet de parcourir un document html mais ne télécharge rien, c'est à toi de parser les balises  pour télécharger les fichiers liés

cs_talha · Answer

Salut tout le monde !
Je pense que cela permettra de d'aspirer des sites web statiques. Par contre quand il y a des données téléchargées et affichées automatiquement sur la page web (ajax et javascript par exemple) votre solution ne mènera à rien. En effet, les données n'existent pas sur le code source de la page web, il y a que des fonctions javaScript.

Aspirateur de site Web en JAVA

4 réponses

Votre réponse

Discussions similaires