Faire les statistiques (keywords,contenu) d'une page html

jinines Messages postés 4 Date d'inscription mercredi 9 février 2005 Statut Membre Dernière intervention 6 mars 2005 - 25 févr. 2005 à 20:21
sisadel Messages postés 29 Date d'inscription mardi 4 avril 2006 Statut Membre Dernière intervention 12 août 2006 - 30 mai 2006 à 10:48
Salut à tous,
Je cherche à créer mon propre moteur de recherche mais qui ferait une recherche uniquement sur les url déjà visités.Pour ça il faudrait que je trouve un moyen de mettre dans un Set tous les keywords, et dans un autre tous les autres mots contenus.
J'ai déjà commencé, j'ai le contenu de toute la page html de l'url (avec les tags etc...) dans un fichier .txt, et maintenant il faut que je fasse le tri entre keywords,mots contenus, tags et ponctuation (qui ne me servent à rien).
Est-ce que quelqu'un pourrait m'aider et me dire ce qu'il faut que je fasse.
Je suis débutante et je fais ça par plaisir (et un peu maso aussi ).
Merci d'avance !

3 réponses

cs_neodante Messages postés 2835 Date d'inscription lundi 11 août 2003 Statut Modérateur Dernière intervention 16 décembre 2006 11
1 mars 2005 à 11:42
Salut



Brave entreprise auquel tu t'atèles !!!!

Alors déjà au niveau de la solution je pense que tu n'as pris la bonne solution.

Bien que je me doute que tu ne veux pas devenir google

(auquel cas tu vas devoir te payer pas mal de machines et

créer tout quasiment from scratch !!!) je pense que tu devrais utiliser une base de données

de type MySQL ou mieux PostGreSQL (ou encore FireBird) si tu n'as pas les moyens de te payer un Oracle 10g ... ;-)



Si tu veux faire une recherche dans une collection en Java ... je te conseillerais la hashtable qui est plus rapide ...

Egalement une collection ne te permet pas à mon avis de faire un moteur de recherche complet ...



Essaye donc de regarder du côté de JDBC (pour te connecter à une base de données) et si tu ne connais rien

aux bases de données, je te conseille MySQL pour sa simplicité (d'utilisiation et parce que vu le nombre

de fonctionnalités limitées ... cela ne peut-être que simple !)



De plus pour faire des recherches performantes, les collections ne sont pas les plus avisées !!!

Il faut utiliser des structures en arbres un peu complexe comme celles utilisée dans les SGDB ..



J'espère avoir répondu à ta problématique ou alors l'utilisation d'une collection est une de tes contrainte s???



Si tu as d'autres question n'hésite ...



@+



@+
0
jinines Messages postés 4 Date d'inscription mercredi 9 février 2005 Statut Membre Dernière intervention 6 mars 2005
6 mars 2005 à 22:00
Coucou,merci pour ta réponse. Utiliser les collections n'est pas une contrainte...d'ailleurs j'ai aucune contrainte vu que je le fais toute seule :-), disons que ma seule contrainte est que ce ne soit pas trop dur pour moi :-). Sinon j'avais pensé à ça parce que je ferai la recherche uniquement sur les pages web déjà visitées (donc pas très nombreuses logiquement)...donc aucune prétention googelienne :-). J'ai déjà l'algo pour trouver tous les mots significatifs contenus dans un code html (pas la ponctuation,ni les chiffres,ni les tags), il ne me reste plus que celui pour les keywords (dans le tag <meta name="keywords" contents="blablabla">), et c'est le blabla qu'il reste à mettre dans un Set. :-), mais j'y arriverais bien :-)
Merci beaucoup, @ + !
0
sisadel Messages postés 29 Date d'inscription mardi 4 avril 2006 Statut Membre Dernière intervention 12 août 2006
30 mai 2006 à 10:48
bonjour moi en fait je develope un meta moteur de recherche ,et je voudrai reccuperer les tag meta pour faire des statistiques sur le nombre d'occurence de chaque keyword dans le document j'utilise un HtmlDocument.Iterator pour le tag META mais il ne marche pas meme si il fonctionne avec d'autre tag(A,BR,..)avez vous une solution .merci
0
Rejoignez-nous