Comment parcourir une page web et extraire les mots clés? quel est le langage id

babalob Messages postés 2 Date d'inscription vendredi 5 mars 2004 Statut Membre Dernière intervention 9 mars 2004 - 5 mars 2004 à 17:34
nhervagault Messages postés 6063 Date d'inscription dimanche 13 avril 2003 Statut Membre Dernière intervention 15 juillet 2011 - 9 mars 2004 à 11:03
Bonjour,
j'espère que vous pourrez m'aider.
Je dois écrire :) un programme qui parcourt une page web et extrait les informations suivant des mots clés (expressions régulières). J'ai pensé à Perl, mais j'aimerais avoir votre opinion. Par ailleurs, je dois pouvoir récupérer la date de l'information et tout sauvegarder dans une base de données.
Je vous remercie d'avance.

Babalob

4 réponses

nhervagault Messages postés 6063 Date d'inscription dimanche 13 avril 2003 Statut Membre Dernière intervention 15 juillet 2011 37
5 mars 2004 à 23:12
salut,

Tu peux utiliser n'importe quel langage pour le faire.

Le tout est de trouver la bonne méthode :

1 --- > Recuperation de la page internet sur le dur

Vb utilisation de winsock.
(si tu veux un exemple envoie un mesage privé "ecrire" avec ton mail)

Perl utilisation de LWP : cf linux magazine les 3-4 derniers magazine les articles sont publiés ensuite sur le site des mongeurs de perl

.Net
Tu peux recuperer une page web en 3 lignes c'est vrai ;-)
ou en plus
Si tu comminuqe comme avec winsowk de VB "get ou post" du HTTP

JAVA
il y a les sockets et pour beaucoup de langages

des librairies sont la pour developper rapidement et cachées la complexité du protocole HTTP
(proxies, SSL, GET, POST, UPLOAD, ........)

2 --> Analyse du resultat
la ca ce corse des fois

si le document est bien formé (rare) html valide? ou xml valide
alors un petit coup de xpath et tu as tout les resultats

tu as les expressions regulieres comme tu mets dans ton mail

tu as l'analyse bourrines du texte
(ie utilisation de instr, pos, left, mid ... de VB)

Voila pour le point de depart

Maintenant a toi de choisir
Il faut trouver un langage que tu maitrises un peu et puis ca devrait pas etre complexe si tu n'utilises pas des authentifications (peut etre que c'est pas dur a gerer mais j'ai pas travaillé dessus :-)

A + pour toutes infos.
0
dionysos6868 Messages postés 310 Date d'inscription jeudi 4 septembre 2003 Statut Membre Dernière intervention 9 juin 2005 1
8 mars 2004 à 20:50
Merci de l'info meme si ce n'est pas pour moi
Dionysos

www.hackeinfo.net
0
babalob Messages postés 2 Date d'inscription vendredi 5 mars 2004 Statut Membre Dernière intervention 9 mars 2004
9 mars 2004 à 09:29
Je te remercie de l'info. Sinon j'ai pensé utiliser un parseur html sous java, créer ma base de données sous access grâce à jdbc.
Bon j'espère que ça marchera.

A bientôt.
0
nhervagault Messages postés 6063 Date d'inscription dimanche 13 avril 2003 Statut Membre Dernière intervention 15 juillet 2011 37
9 mars 2004 à 11:03
Pour utilisé un parseur, il faut etre sur que ton document est bien formé.
Les balises sont bien fermeées ...
C'est l'inconvénient du HTML non valide.
Il y a de grande chance qui faut le faire à la main.
Avec des recherche de patterns pour avoir les elements que tu veux dans une page.
0
Rejoignez-nous