Extraction des données depuis un fichier .HTML

goldray Messages postés 82 Date d'inscription mercredi 24 septembre 2008 Statut Membre Dernière intervention 1 juin 2014 - Modifié par goldray le 2/08/2013 à 01:32
Twinuts Messages postés 5375 Date d'inscription dimanche 4 mai 2003 Statut Modérateur Dernière intervention 14 juin 2023 - 2 août 2013 à 08:32
Bonsoir,
Je souhaiterais extraire des données depuis un fichier .HTML
par exemple:
...
<h1>Bonjour à Tous</h1>
...

=>Je souhaiterais afficher "Bonjour à Tous".
J'ai déjà essayé ,avec le code suivant:
    public class extraction {
    public static void main(String[] args) {
    readFile("fichier.html");
    }
     
    public static void readFile(String pathToFile){
    try {
    BufferedReader reader = new BufferedReader(new FileReader(new File(pathToFile)));
    String ligne;
    while((ligne = reader.readLine()) != null){
    if(ligne.endsWith("</h1>")){
    System.out.println(ligne);
    }
     
    }
     
    } catch (Exception ex){
    System.err.println("Error. "+ex.getMessage());
    }
    }
    }


=>le résultat affiché est: <h1>Bonjour à Tous</h1> or je veux éliminer les deux balises <h1> et </h1>.
merci d'avance :)

2 réponses

cs_Julien39 Messages postés 6414 Date d'inscription mardi 8 mars 2005 Statut Modérateur Dernière intervention 29 juillet 2020 371
2 août 2013 à 08:31
Salut,

Si tu sais que tes balises sont <h1> et </h1>
chaine.substring(4, chaine.length -5)
0
Twinuts Messages postés 5375 Date d'inscription dimanche 4 mai 2003 Statut Modérateur Dernière intervention 14 juin 2023 111
2 août 2013 à 08:32
Salut,

Si tu veux simplement isoler une ou 2 balises html tu peux utiliser les regex:

String text = "<h1>Bonjour à Tous</h1>";
System.out.println(text.replaceAll("<h1>(.*)</h1>", "$1"));


Sinon si tu veux parser un fichier HTML, il est préférable d'utiliser un parseur HTML
https://www.google.com/search?q=java+html+parser
0
Rejoignez-nous