Parser du HTML

JALEO WAHRANI Messages postés 17 Date d'inscription mercredi 20 juin 2007 Statut Membre Dernière intervention 14 février 2008 - 1 déc. 2007 à 10:02
oussamad Messages postés 3 Date d'inscription dimanche 4 janvier 2009 Statut Membre Dernière intervention 20 février 2009 - 20 févr. 2009 à 16:50
Bonjour à tous,
j'utilise actuellement htmlparser pour parser du HTML (logique !). Cependant je bute sur un problème car je voudrais ouvrir un fichier, supprimer certaines balises puis sauvegarder le résultat. Or, il y a 2 opérations que je n'arrive pas à faire:

<li>retrouver toutes les balises que je veux supprimer</li><li>supprimer et sauvegarder</li>Lorsque je cherche les balises "script", le parser ne me trouve que les balises
<script ...> /* bla bla bla </script>
Les balises <script ... src=""></script> semblent ignorées

De plus, je ne sais comment supprimer les balises qui sont retrouvées et encore moins comment sauvegarder le fichier une fois les balises en question supprimées.

Merci d'avance

2 réponses

Utilisateur anonyme
1 déc. 2007 à 10:35
Récupère la liste des noeuds au moment où tu parses :

Parser parser = new Parser ("ta_page.html");
NodeList liste_de_noeuds = parser.parse (null);
NodeList mes_noeuds_script = liste_de_noeuds.extractAllNodesThatMatch (new TagNameFilter ("script"));

Ensuite, parcours ta liste en appliquant la méthode removeAll() et ça devrait suffire. J'espère que ça t'avance un peu.

TUER : http://membres.lycos.fr/javalution/tuer.php

yeah! vive java
0
oussamad Messages postés 3 Date d'inscription dimanche 4 janvier 2009 Statut Membre Dernière intervention 20 février 2009
20 févr. 2009 à 16:50
Bonjour.
Je utilise ¨javax.swing.test.html.parser ¨ , comment extrait les informations d'un fichier html et stocker les informations dans fichier XML.

Merci d'avance.
0
Rejoignez-nous