Bonjour ,
j'ai un fichier txt qui contient le code source de plusieurs pages html.
Ce qui m’intéresse c'est quelques données dans des balises par exemple :
2) parfois il y a des entreprise qui mettent leurs numéro de téléphones et d'autres non
donc la balise Tél. : n'existe pas parfois.
Ce que j'ai trouvé c'est :
Protected Sub parseHTML(ByRef HTML As String)
Dim pattern As String = "[]+)[>
]+)[>]"
Dim matches As MatchCollection = Regex.Matches(HTML, pattern)
For Each match As Match In matches
Debug.WriteLine("HREF " & match.Groups(1).Value)
Debug.WriteLine("div " & match.Groups(2).Value)
Next
End Sub
Et biensur ca ne marche pas puisqu'il y a une centaine de div dans le code source
Une idée ?
Le plus simple (mais très lourd malheureusement), serait de charger ta page dans un composant WebBrowser et de travailler avec les 'htmlelement' de celui-ci.
Pour une appli personnelle c'est suffisant, bien sûr si tu souhaites la distribuer, il faudra s'y prendre autrement.
Bonjour banana32
tu as raison c'est lourde comme fonction.
On m'as conseillé de sauvegarder le code source dans un fichier d’extension ".json" , c'est moin complexe que html
Maintenant je suis entrain de chercher comment extraire ce qui m’intéresse sous un fichier json
des idées ?