Retirer les balises ds un fichier html

godmajestic Messages postés 1 Date d'inscription lundi 29 juillet 2002 Statut Membre Dernière intervention 31 juillet 2002 - 31 juil. 2002 à 12:14
thiosyiasar Messages postés 186 Date d'inscription lundi 11 mars 2002 Statut Membre Dernière intervention 30 novembre 2010 - 31 juil. 2002 à 22:16
je dois realiser un moteur de recherche sur un certain nombre de page et pour cela je dois recuperer leur contenu et le copier ds un fichier qqc mais je dois prealablement netoyer les pages pour ne recuperer que le texte entre balises!

merci d'avance!

3 réponses

thiosyiasar Messages postés 186 Date d'inscription lundi 11 mars 2002 Statut Membre Dernière intervention 30 novembre 2010 3
31 juil. 2002 à 16:07
Salut,

Je crois que l'utilisation des expressions régulières te serais d'un grand secours. Regardes dans Référence, RegExp ou VbScriptRegExp...

Si tu peux attendre jusqu'a demain, je te file un bout de code qui te nettoie la chaine de toute balise html.
0
cs_rene38 Messages postés 1858 Date d'inscription samedi 29 juin 2002 Statut Membre Dernière intervention 17 octobre 2013 11
31 juil. 2002 à 16:19
Private Sub Command1_Click()
Dim i As Long, j As Long, k As String * 1, Balise As Boolean
Open "FichierHtml.htm" For Binary As #1
Open "FichierTexte.txt" For Binary As #2
Balise = False
For i = 1 To LOF(1)
Do
Get 1, i, k ' lecture des caractères du fichier Html

If k = "<" Then ' début de balise
Balise = True
Exit Do
End If

If k = ">" Then ' fin de balise
Balise = False
Exit Do
End If

If Balise Then Exit Do ' dans la balise

j = j + 1 ' hors balise : récupérer le texte
Put 2, j, k
Exit Do
Loop
Next i
Close
End Sub
0
thiosyiasar Messages postés 186 Date d'inscription lundi 11 mars 2002 Statut Membre Dernière intervention 30 novembre 2010 3
31 juil. 2002 à 22:16
Comme tu vas surement passer plusieurs pages à la moulinette, tu peux utiliser la méthode BRICOLO ou utiliser celle que je viens de mettre...

http://www.vbfrance.com/article.aspx?Val=5318

bonne prog
0
Rejoignez-nous