Récupérer le contenu des balise HTML dans un fichier texte

meherr - 21 févr. 2013 à 17:11
 meherr - 22 févr. 2013 à 16:47
Bonjour ,
j'ai un fichier txt qui contient le code source de plusieurs pages html.
Ce qui m’intéresse c'est quelques données dans des balises par exemple :

<h2 class= "nameCli">" nom 1 <li> adresse 1 </li>"
<li class ="call"> Tél. : num 1 </li>"


<h2 class= "nameCli">"
nom 2 "

<li> adresse 2 </li>"
<li class ="call"> Tél. : num 2 </li>"


<h2 class= "nameCli">" nom 3 "

<li> adresse 3 </li>"
<li class ="call"> Tél. : num 3 </li>"


Je veux avoir dans un fichier cette forme :
[b]nom1 , adresse 1 , num 1
nom2 , adresse 2 , num 2
nom3 , adresse 3 , num 3/b

Est-ce possible ?
(De préférence avec le language VB.net)

4 réponses

jordane45 Messages postés 38145 Date d'inscription mercredi 22 octobre 2003 Statut Modérateur Dernière intervention 25 avril 2024 344
22 févr. 2013 à 00:19
bonjour,

parser le HTML, c'est possible par différents moyens.
Expressions régulières (pour des cas simples je dirai), html agility...

voici quelques liens trouvés au hasard d'une recherche sur le net :

parser html
/parsing-html-in-vb-net






Cordialement,
Jordane
_____________________________________________________
Règles du forum à lire avant de poster une question : ICI
0
Bonjour jordane45

J'ai déjà trouver ce genre de code mais il ne répond pas exactement à mon problème.
J'ai deux problèmes en fait :

1) Les informations dont j'ai besoin ne sont pas du style : [xxxxx nom1 ] puis



<li>adresse 1</li>
<li class= "call">Tél. : num1 </li>





2) parfois il y a des entreprise qui mettent leurs numéro de téléphones et d'autres non
donc la balise Tél. : n'existe pas parfois.


Ce que j'ai trouvé c'est :
Protected Sub parseHTML(ByRef HTML As String)
Dim pattern As String = "[]+)[>
]+)[>]"
Dim matches As MatchCollection = Regex.Matches(HTML, pattern)
For Each match As Match In matches
Debug.WriteLine("HREF " & match.Groups(1).Value)
Debug.WriteLine("div " & match.Groups(2).Value)
Next
End Sub
Et biensur ca ne marche pas puisqu'il y a une centaine de div dans le code source
Une idée ?
0
Utilisateur anonyme
22 févr. 2013 à 13:17
Bonjour,

Le plus simple (mais très lourd malheureusement), serait de charger ta page dans un composant WebBrowser et de travailler avec les 'htmlelement' de celui-ci.
Pour une appli personnelle c'est suffisant, bien sûr si tu souhaites la distribuer, il faudra s'y prendre autrement.
0
Bonjour banana32
tu as raison c'est lourde comme fonction.
On m'as conseillé de sauvegarder le code source dans un fichier d’extension ".json" , c'est moin complexe que html
Maintenant je suis entrain de chercher comment extraire ce qui m’intéresse sous un fichier json
des idées ?
0
Rejoignez-nous