Expression réguliere pour sortir le domaine d'une URL dans un cadre spécifique

jeffwow Messages postés 140 Date d'inscription mercredi 27 novembre 2002 Statut Membre Dernière intervention 5 septembre 2014 - 20 févr. 2009 à 17:03
pifol Messages postés 23 Date d'inscription mercredi 14 novembre 2007 Statut Membre Dernière intervention 26 avril 2009 - 25 avril 2009 à 16:24
Bonjour.

Je piétine un peu concernant une expression régulière en particulier.

IL faut avouer que je ne suis pas un expert en la matière...

J'ai plusieurs chaines de textes semblables à celle-ci dans le source d'une page HTML:

<li class=g><h3 class=r>

J'aimerais trouver une expression régulière qui me permette de:

-Trouver tout ce qui commence par:  <li class=g><h3 class=r><a href=
-Extraire le domaine de l'url qui se trouve après (ici en.wikipedia.org)

Comme le code source contient plusieurs URL du genre, je bouclerai afin de les extraire.

Un top nutch REGEX a une solution facile?  Cela fait quelques heures que je piétine...

Merci,

Jeff

2 réponses

Renfield Messages postés 17287 Date d'inscription mercredi 2 janvier 2002 Statut Modérateur Dernière intervention 27 septembre 2021 71
23 mars 2009 à 08:00
<li class=g><h3 class=r><a href="http://([^/]+)

( extraire
[^ tout caractère, sauf...
/ un slash
]+ répétition de 1 à n fois
) fin de l'extraction
0
pifol Messages postés 23 Date d'inscription mercredi 14 novembre 2007 Statut Membre Dernière intervention 26 avril 2009
25 avril 2009 à 16:24
La voilà ta regex:
#<li class=g><h3 class=r>#U
0
Rejoignez-nous