Expression réguliere pour sortir le domaine d'une URL dans un cadre spécifique

Signaler
Messages postés
140
Date d'inscription
mercredi 27 novembre 2002
Statut
Membre
Dernière intervention
5 septembre 2014
-
Messages postés
23
Date d'inscription
mercredi 14 novembre 2007
Statut
Membre
Dernière intervention
26 avril 2009
-
Bonjour.

Je piétine un peu concernant une expression régulière en particulier.

IL faut avouer que je ne suis pas un expert en la matière...

J'ai plusieurs chaines de textes semblables à celle-ci dans le source d'une page HTML:

<li class=g><h3 class=r>

J'aimerais trouver une expression régulière qui me permette de:

-Trouver tout ce qui commence par:  <li class=g><h3 class=r><a href=
-Extraire le domaine de l'url qui se trouve après (ici en.wikipedia.org)

Comme le code source contient plusieurs URL du genre, je bouclerai afin de les extraire.

Un top nutch REGEX a une solution facile?  Cela fait quelques heures que je piétine...

Merci,

Jeff

2 réponses

Messages postés
17288
Date d'inscription
mercredi 2 janvier 2002
Statut
Modérateur
Dernière intervention
27 septembre 2021
71
<li class=g><h3 class=r><a href="http://([^/]+)

( extraire
[^ tout caractère, sauf...
/ un slash
]+ répétition de 1 à n fois
) fin de l'extraction
Messages postés
23
Date d'inscription
mercredi 14 novembre 2007
Statut
Membre
Dernière intervention
26 avril 2009

La voilà ta regex:
#<li class=g><h3 class=r>#U