Récuperer le texte affiché sur une page web / Expressions régulières
W@$h!
Messages postés70Date d'inscriptionmercredi 24 septembre 2003StatutMembreDernière intervention16 juin 2010
-
23 avril 2010 à 11:46
kohntark
Messages postés3705Date d'inscriptionlundi 5 juillet 2004StatutMembreDernière intervention27 avril 2012
-
23 avril 2010 à 19:19
Bonjour à tous,
Je vous expose mon soucis...
Je récupère le code source d'une page web. Jusque là, pas de problème. Mais maintenant j'aimerais récupérer tout le texte qui est afficher sur la page, ou qui peut apparaitre aux yeux des visiteurs.
En d'autre terme, enlever toutes les balises et éléments de code.
Exemple :
Bonjour!
Bienvenue sur MonSite à moi!!
... je voudrais récupérer
Bonjour!
Bienvenue sur
MonSite
à moi!!
Mais également
.... je voudrais récupérer
Tu es sur mon nouveau
site à moi!
Est-ce qu'il y aurait un pro des expressions régulières prêt à me filer un coup de main, parce que autant pour les autres j'ai pu m'en sortir, autant là je sèche!!
Au moins une petite piste??
A voir également:
Récuperer le texte affiché sur une page web / Expressions régulières
kohntark
Messages postés3705Date d'inscriptionlundi 5 juillet 2004StatutMembreDernière intervention27 avril 201230 23 avril 2010 à 19:19
Salut,
Pour le premier exemple tu as la fonction strip_tags() qui devrait répondre à ton besoin (mais ce n'est déjà pas gagné)
Pour le second tout dépend :
- si tu connais d'avance la structure de la page (les fonctions JS, le CSS, ... sont toujours les mêmes) des regex pourraient suffire (pourraient ...)
- si par contre il s'agit de pages variées dont tu ne connais rien ... c'est mort.
ou qui peut apparaitre aux yeux des visiteurs
Pour parvenir à quelque chose de correct il faudrait être capable d'émuler un navigateur pour interpréter le JS et le CSS, et ça, en php, j'ai un gros doute que ce soit possible (en tout cas ça ne se ferait pas en 5000 lignes)
Peut être existe t il des programmes permettant cela, mais je n'en connais aucun.