Detaguer une page html et obtenir un simple texte

cs_ttornade Messages postés 31 Date d'inscription jeudi 2 octobre 2003 Statut Membre Dernière intervention 12 avril 2013 - 14 oct. 2003 à 18:00
jesusonline Messages postés 6814 Date d'inscription dimanche 15 décembre 2002 Statut Membre Dernière intervention 13 octobre 2010 - 14 oct. 2003 à 19:27
Bjr la liste,

je convertir une page html en format txt. Mon objectif serait de "nétoyer" tout ce qui est script, option *.css ect. Par exple: <html><head>HHHH<head><script language= javascript>function(){ffff}</script> je suis néo en C#jksfjksdfjkfkfj </html>
Je voudrais rècupérer seulement la partie "je suis néo en C#jksfjksdfjkfkfj". dans mon code j'ai utilisé:
string pattern = @"(?i)<script([^>])*>(\w|\W)*</script([^>])*>|(?<gt>(<(""[^""]""|'[^']'|[^>])+)?>)";
strParsed = Regex.Replace(contenuHtml, pattern, " ");
Mais le rèsultat que j'obtiens n'est pas satisfaisant en ce sens que je retrouve par exple: ".maillink{color:white;text-decoration:none;}" et tant d'autres.
Quelqu'un saurait me donner des indications pr resoudre mon problème? Merci infiniment.

TT

1 réponse

jesusonline Messages postés 6814 Date d'inscription dimanche 15 décembre 2002 Statut Membre Dernière intervention 13 octobre 2010 29
14 oct. 2003 à 19:27
Moi je pense plutot qu'il faudrait considerer ton fichier HTML comme un Fichier XML et ensue tu peux lire ce que tu veux dans les balises, le pb c'est qu'il faut que ton HTML soit très bien formé :)
0
Rejoignez-nous