cs_ttornade
Messages postés31Date d'inscriptionjeudi 2 octobre 2003StatutMembreDernière intervention12 avril 2013
-
14 oct. 2003 à 18:00
jesusonline
Messages postés6814Date d'inscriptiondimanche 15 décembre 2002StatutMembreDernière intervention13 octobre 2010
-
14 oct. 2003 à 19:27
Bjr la liste,
je convertir une page html en format txt. Mon objectif serait de "nétoyer" tout ce qui est script, option *.css ect. Par exple: <html><head>HHHH<head><script language= javascript>function(){ffff}</script> je suis néo en C#jksfjksdfjkfkfj </html>
Je voudrais rècupérer seulement la partie "je suis néo en C#jksfjksdfjkfkfj". dans mon code j'ai utilisé:
string pattern = @"(?i)<script([^>])*>(\w|\W)*</script([^>])*>|(?<gt>(<(""[^""]""|'[^']'|[^>])+)?>)";
strParsed = Regex.Replace(contenuHtml, pattern, " ");
Mais le rèsultat que j'obtiens n'est pas satisfaisant en ce sens que je retrouve par exple: ".maillink{color:white;text-decoration:none;}" et tant d'autres.
Quelqu'un saurait me donner des indications pr resoudre mon problème? Merci infiniment.
jesusonline
Messages postés6814Date d'inscriptiondimanche 15 décembre 2002StatutMembreDernière intervention13 octobre 201029 14 oct. 2003 à 19:27
Moi je pense plutot qu'il faudrait considerer ton fichier HTML comme un Fichier XML et ensue tu peux lire ce que tu veux dans les balises, le pb c'est qu'il faut que ton HTML soit très bien formé :)