Retirer les balises ds un fichier html

Signaler
Messages postés
1
Date d'inscription
lundi 29 juillet 2002
Statut
Membre
Dernière intervention
31 juillet 2002
-
Messages postés
186
Date d'inscription
lundi 11 mars 2002
Statut
Membre
Dernière intervention
30 novembre 2010
-
je dois realiser un moteur de recherche sur un certain nombre de page et pour cela je dois recuperer leur contenu et le copier ds un fichier qqc mais je dois prealablement netoyer les pages pour ne recuperer que le texte entre balises!

merci d'avance!

3 réponses

Messages postés
186
Date d'inscription
lundi 11 mars 2002
Statut
Membre
Dernière intervention
30 novembre 2010
3
Salut,

Je crois que l'utilisation des expressions régulières te serais d'un grand secours. Regardes dans Référence, RegExp ou VbScriptRegExp...

Si tu peux attendre jusqu'a demain, je te file un bout de code qui te nettoie la chaine de toute balise html.
0
Messages postés
1858
Date d'inscription
samedi 29 juin 2002
Statut
Membre
Dernière intervention
17 octobre 2013
10
Private Sub Command1_Click()
Dim i As Long, j As Long, k As String * 1, Balise As Boolean
Open "FichierHtml.htm" For Binary As #1
Open "FichierTexte.txt" For Binary As #2
Balise = False
For i = 1 To LOF(1)
Do
Get 1, i, k ' lecture des caractères du fichier Html

If k = "<" Then ' début de balise
Balise = True
Exit Do
End If

If k = ">" Then ' fin de balise
Balise = False
Exit Do
End If

If Balise Then Exit Do ' dans la balise

j = j + 1 ' hors balise : récupérer le texte
Put 2, j, k
Exit Do
Loop
Next i
Close
End Sub
0
Messages postés
186
Date d'inscription
lundi 11 mars 2002
Statut
Membre
Dernière intervention
30 novembre 2010
3
Comme tu vas surement passer plusieurs pages à la moulinette, tu peux utiliser la méthode BRICOLO ou utiliser celle que je viens de mettre...

http://www.vbfrance.com/article.aspx?Val=5318

bonne prog
0