C#: meilleure façon de parser rapidement une page html
Karibot
Messages postés89Date d'inscriptionmardi 19 janvier 2010StatutMembreDernière intervention21 juin 2016
-
13 nov. 2010 à 10:44
BunoCS
Messages postés15476Date d'inscriptionlundi 11 juillet 2005StatutModérateurDernière intervention 3 mai 2024
-
17 nov. 2010 à 16:39
Bonjour,
quelle est la meilleure façon de parser une page html et récupérer les liens qu'elle contient?
j'utilise httpwebrequest pour parser la page et pour récupérer les liens j'utilise l'objet regex mais je ne pense pas que ça soit la meilleure méthode. y a t-il un autre truc plus rapide? et où le résultat est fiable à 100% (je parle du nombre de liens). j'aimerai aussi utiliser les multithread pour parser plusieurs pages à la fois mais je ne sais pas comment l'utiliser :( (un tuto pour débutants? qui explique le multithread?)
merci d'avance.
Karibot
Messages postés89Date d'inscriptionmardi 19 janvier 2010StatutMembreDernière intervention21 juin 20162 17 nov. 2010 à 16:33
je pensais plus à une fonction qui permet de transformer du contenu html en flux xml, ce qui permet de traiter plus rapidement les noeuds et sortir des choses plus pertinentes...
BunoCS
Messages postés15476Date d'inscriptionlundi 11 juillet 2005StatutModérateurDernière intervention 3 mai 2024103 17 nov. 2010 à 16:39
Pour m'y être collé, je peux te dire que ce n'est pas toujours faisable.
Ta page html doit être "sans défaut": toutes les balises doivent être fermées, par exemple.
Si, par contre, tu es certain de la validité de ta page et que tu connais bien sa structure, tu peux utiliser Linq.
Pour tester la validité, tu peux essayer de "lire" ta page avec un XmlReader
@+
Buno
----------------------------------------
L'urgent est fait, l'impossible est en cours. Pour les miracles, prévoir un délai...