Bonjour je voudrais savoir comment on fait pour extraire les url d'un document de html, en utlisant le langage C, il peut y avoir plusieurs url dans document html.
En faite, je vous donne l'exemple d'un fichier html, c 'est comme un fichier texte, il contient plusieurs caractères.
Un lien est de la forme suivante:
[3722/emacs.html emacs]
Moi ce que je dois faire c'est d'extraire ce qui se trouve entre guillemets(URL), c'est à dire "3722/emacs.html". Pour cela on dit qu'il faut vérifier que le premier caractère est='<' deuxième='a' troisième='h' jusqu'au temps ou je vois le premier guillemet. Ensuite il faut afficher ce qui se trouve entre guillemets sans les guillemets.
Voici l'extrait d'un fichier html
Vous voyez ici j'ai 2 url, il peut y en avoir plusieurs premier :"
http://www.funfun.com/cgibin/?"
deuxième:"3722/emacs.html"
En passant il doit y avoir au moins un espace autour du signe d'égalité
=====================================
<!doctype html public "-//w3c//dtd html 4.0 transitional//en">
<html>
<head>
......blabla
liens</center>
<hr WIDTH="100%"></center>
......blabba
[3722/emacs.html emacs]
[3722/cygwin.html cygwin]
=====================================
la sortie sera comme:
lien1=
http://www.funfun.com/cgibin/?">
lien2=3722/emacs.html
mai je ne sais pas comment le faire pouvez-vous me le dire comment le faire
je suis désespérée j'attends votre réponse
bonne journée