Récuperer le texte affiché sur une page web / Expressions régulières

W@$h! Messages postés 70 Date d'inscription mercredi 24 septembre 2003 Statut Membre Dernière intervention 16 juin 2010 - 23 avril 2010 à 11:46
kohntark Messages postés 3705 Date d'inscription lundi 5 juillet 2004 Statut Membre Dernière intervention 27 avril 2012 - 23 avril 2010 à 19:19
Bonjour à tous,

Je vous expose mon soucis...

Je récupère le code source d'une page web. Jusque là, pas de problème. Mais maintenant j'aimerais récupérer tout le texte qui est afficher sur la page, ou qui peut apparaitre aux yeux des visiteurs.

En d'autre terme, enlever toutes les balises et éléments de code.

Exemple :

Bonjour!
Bienvenue sur MonSite à moi!!


... je voudrais récupérer
Bonjour!
Bienvenue sur
MonSite
à moi!!


Mais également




.... je voudrais récupérer
Tu es sur mon nouveau
site à moi!



Est-ce qu'il y aurait un pro des expressions régulières prêt à me filer un coup de main, parce que autant pour les autres j'ai pu m'en sortir, autant là je sèche!!

Au moins une petite piste??

2 réponses

W@$h! Messages postés 70 Date d'inscription mercredi 24 septembre 2003 Statut Membre Dernière intervention 16 juin 2010
23 avril 2010 à 11:50
Bien sûr, tout le monde aura vu l'erreur sur le onMouseOver... Désolé, j'ai pas relu
0
kohntark Messages postés 3705 Date d'inscription lundi 5 juillet 2004 Statut Membre Dernière intervention 27 avril 2012 30
23 avril 2010 à 19:19
Salut,

Pour le premier exemple tu as la fonction strip_tags() qui devrait répondre à ton besoin (mais ce n'est déjà pas gagné)

Pour le second tout dépend :
- si tu connais d'avance la structure de la page (les fonctions JS, le CSS, ... sont toujours les mêmes) des regex pourraient suffire (pourraient ...)
- si par contre il s'agit de pages variées dont tu ne connais rien ... c'est mort.

ou qui peut apparaitre aux yeux des visiteurs

Pour parvenir à quelque chose de correct il faudrait être capable d'émuler un navigateur pour interpréter le JS et le CSS, et ça, en php, j'ai un gros doute que ce soit possible (en tout cas ça ne se ferait pas en 5000 lignes)

Peut être existe t il des programmes permettant cela, mais je n'en connais aucun.


Cordialement,


Kohntark -
0
Rejoignez-nous