Extraction données d'un document HTML

gadour_esz Messages postés 67 Date d'inscription lundi 26 mars 2007 Statut Membre Dernière intervention 24 mai 2007 - 30 avril 2007 à 16:58
besbesa Messages postés 3 Date d'inscription jeudi 6 mars 2008 Statut Membre Dernière intervention 21 mars 2008 - 21 mars 2008 à 17:51
salut,
je suis entrain d'écrir un programme en java qui manipule un fichier texte.
le problème est que je doit réccupurer le texte d'un document HTML
je cherché sur ce sujet et j'ai trouvé que ca marcher avec HTMLparser mais le problème est que je sais pas comment débuter ?
j'ai besoin de votre aide
Merci

4 réponses

Ombitious_Developper Messages postés 2333 Date d'inscription samedi 28 février 2004 Statut Membre Dernière intervention 26 juillet 2013 38
30 avril 2007 à 19:14
Salut:




Comme tu dis il y a pas mal de parseur.
Normalement
chaque parseur HTML contient en plus des JARs et de la documentation des
exemples d'utilisations, prends le soin de les voir.

C'est ce qu'on fait avec presque tout les APIs.
0
gadour_esz Messages postés 67 Date d'inscription lundi 26 mars 2007 Statut Membre Dernière intervention 24 mai 2007
2 mai 2007 à 12:16
salut,
mon problème est que je dois analyser des documents Html
dont je connais pas leurs structures au niveau de leurs balises
afin d'extraire le texte
Merci
0
Ombitious_Developper Messages postés 2333 Date d'inscription samedi 28 février 2004 Statut Membre Dernière intervention 26 juillet 2013 38
2 mai 2007 à 19:27
Salut:

je ne suis très doué dans le web.

mais tu peux analyser les balise META qui contiennent une description du document.

En plus de ça c'est à toi de préciser (ou celui qui demande ce travail) ce qu'il veut extraire exactement, tout simplement on peut faire divers sondage suivant plusieurs critères.
 
0
besbesa Messages postés 3 Date d'inscription jeudi 6 mars 2008 Statut Membre Dernière intervention 21 mars 2008
21 mars 2008 à 17:51
salut,
je trouve  un probléme dans l'extraction de la balise META d'un document HTML
malgré que j'arrive à extraire les autres balises
merci
0
Rejoignez-nous