[Java][RegExp] Extraire liens HTML

djschorn Messages postés 13 Date d'inscription mercredi 30 juillet 2003 Statut Membre Dernière intervention 11 novembre 2013 - 8 août 2003 à 12:12
balbinus Messages postés 19 Date d'inscription jeudi 1 janvier 2004 Statut Membre Dernière intervention 2 juillet 2004 - 17 janv. 2004 à 19:38
Bonjour,

Voilà je voudrais extraire d'une page HTML tout les liens qui y sont contenu.
J'ai essayé un truc du style :

Pattern pattern = Pattern.compile("()");
Matcher matcher = pattern.matcher(maChaine);

while(matcher.find())
System.out.println(matcher.group());

Mais ca m'affiche tout le texte contenu entre le 1er et le dernier lien (inclus) :-(

Il est évident que l'erreur vient du pattern, mais comment faire ?

Merci d'avance

1 réponse

balbinus Messages postés 19 Date d'inscription jeudi 1 janvier 2004 Statut Membre Dernière intervention 2 juillet 2004
17 janv. 2004 à 19:38
L'erreur vient du fait que le pattern renvoie ce qui est entre crochets ici :

[[xxx.html Gnagnagna]...[yyy.html grztg]]

Ce qui est logique par rapport à ton pattern, non ?

Par contre, je suis désolé, je n'ai pas de solution à te proposer...
0