Récupérer le contenu des balise HTML dans un fichier texte

Question

Bonjour , j'ai un fichier txt qui contient le code source de plusieurs pages html. Ce qui m’intéresse c'est quelques données dans des balises par exemple :

" nom 1
adresse 1
"
Tél. : num 1
"

" nom 2 "
adresse 2
"
Tél. : num 2
"

" nom 3 "
adresse 3
"
Tél. : num 3
" Je veux avoir dans un fichier cette forme : [b]nom1 , adresse 1 , num 1 nom2 , adresse 2 , num 2 nom3 , adresse 3 , num 3/b Est-ce possible ? (De préférence avec le language VB.net)

jordane45 · Answer

bonjour,

parser le HTML, c'est possible par différents moyens.
Expressions régulières (pour des cas simples je dirai), html agility...

voici quelques liens trouvés au hasard d'une recherche sur le net :

parser html
/parsing-html-in-vb-net






Cordialement,
Jordane
_____________________________________________________
Règles du forum à lire avant de poster une question : ICI

meherr · Answer

Bonjour jordane45 J'ai déjà trouver ce genre de code mais il ne répond pas exactement à mon problème. J'ai deux problèmes en fait : 1) Les informations dont j'ai besoin ne sont pas du style : [xxxxx nom1 ] puis

adresse 1

Tél. : num1

2) parfois il y a des entreprise qui mettent leurs numéro de téléphones et d'autres non donc la balise Tél. : n'existe pas parfois. Ce que j'ai trouvé c'est : Protected Sub parseHTML(ByRef HTML As String) Dim pattern As String = "[]+)[> ]+)[>]" Dim matches As MatchCollection = Regex.Matches(HTML, pattern) For Each match As Match In matches Debug.WriteLine("HREF " & match.Groups(1).Value) Debug.WriteLine("div " & match.Groups(2).Value) Next End Sub Et biensur ca ne marche pas puisqu'il y a une centaine de div dans le code source Une idée ?

Utilisateur anonyme · Answer

Bonjour,

Le plus simple (mais très lourd malheureusement), serait de charger ta page dans un composant WebBrowser et de travailler avec les 'htmlelement' de celui-ci.
Pour une appli personnelle c'est suffisant, bien sûr si tu souhaites la distribuer, il faudra s'y prendre autrement.

meherr · Answer

Bonjour banana32
tu as raison c'est lourde comme fonction.
On m'as conseillé de sauvegarder le code source dans un fichier d&#8217;extension ".json" , c'est moin complexe que html 
Maintenant je suis entrain de chercher comment extraire ce qui m&#8217;intéresse sous un fichier json 
des idées ?

Récupérer le contenu des balise HTML dans un fichier texte

4 réponses

Votre réponse

Discussions similaires