Comment parcourir une page web et extraire les mots clés? quel est le langage id
babalob
Messages postés2Date d'inscriptionvendredi 5 mars 2004StatutMembreDernière intervention 9 mars 2004
-
5 mars 2004 à 17:34
nhervagault
Messages postés6063Date d'inscriptiondimanche 13 avril 2003StatutMembreDernière intervention15 juillet 2011
-
9 mars 2004 à 11:03
Bonjour,
j'espère que vous pourrez m'aider.
Je dois écrire :) un programme qui parcourt une page web et extrait les informations suivant des mots clés (expressions régulières). J'ai pensé à Perl, mais j'aimerais avoir votre opinion. Par ailleurs, je dois pouvoir récupérer la date de l'information et tout sauvegarder dans une base de données.
Je vous remercie d'avance.
Babalob
A voir également:
Comment parcourir une page web et extraire les mots clés? quel est le langage id
nhervagault
Messages postés6063Date d'inscriptiondimanche 13 avril 2003StatutMembreDernière intervention15 juillet 201137 5 mars 2004 à 23:12
salut,
Tu peux utiliser n'importe quel langage pour le faire.
Le tout est de trouver la bonne méthode :
1 --- > Recuperation de la page internet sur le dur
Vb utilisation de winsock.
(si tu veux un exemple envoie un mesage privé "ecrire" avec ton mail)
Perl utilisation de LWP : cf linux magazine les 3-4 derniers magazine les articles sont publiés ensuite sur le site des mongeurs de perl
.Net
Tu peux recuperer une page web en 3 lignes c'est vrai ;-)
ou en plus
Si tu comminuqe comme avec winsowk de VB "get ou post" du HTTP
JAVA
il y a les sockets et pour beaucoup de langages
des librairies sont la pour developper rapidement et cachées la complexité du protocole HTTP
(proxies, SSL, GET, POST, UPLOAD, ........)
2 --> Analyse du resultat
la ca ce corse des fois
si le document est bien formé (rare) html valide? ou xml valide
alors un petit coup de xpath et tu as tout les resultats
tu as les expressions regulieres comme tu mets dans ton mail
tu as l'analyse bourrines du texte
(ie utilisation de instr, pos, left, mid ... de VB)
Voila pour le point de depart
Maintenant a toi de choisir
Il faut trouver un langage que tu maitrises un peu et puis ca devrait pas etre complexe si tu n'utilises pas des authentifications (peut etre que c'est pas dur a gerer mais j'ai pas travaillé dessus :-)
babalob
Messages postés2Date d'inscriptionvendredi 5 mars 2004StatutMembreDernière intervention 9 mars 2004 9 mars 2004 à 09:29
Je te remercie de l'info. Sinon j'ai pensé utiliser un parseur html sous java, créer ma base de données sous access grâce à jdbc.
Bon j'espère que ça marchera.
nhervagault
Messages postés6063Date d'inscriptiondimanche 13 avril 2003StatutMembreDernière intervention15 juillet 201137 9 mars 2004 à 11:03
Pour utilisé un parseur, il faut etre sur que ton document est bien formé.
Les balises sont bien fermeées ...
C'est l'inconvénient du HTML non valide.
Il y a de grande chance qui faut le faire à la main.
Avec des recherche de patterns pour avoir les elements que tu veux dans une page.