Moteur de recherche à l'échelle du web [Résolu]

Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005
- - Dernière réponse : o0Leo0o
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005
- 6 nov. 2004 à 13:48
Depuis hier, je me demande comment créer une sorte de google-like.
Déja, je me suis interessé sur la méthode à utiliser, celle qui m'est restée en tête est la suivante:
1. l'admin du moteur entre une adresse internet
2. un script va sur ce site
3. il range quelque part le contenu du site
4. il cherche toutes les balises renvoyant vers un lien absolu
5. il note les liens trouvés dans une bdd
6. il recommence l'opération mais sur les nouveaux sites qu'il connait
...

Mais voila, des questions me tracassent:
1. la mise en cache du contenu de milliers de site, ça doit peser lourd
2. comment localiser des balises sur une page web (je pense qu'il s'agit d'un outil dérivé de fopen

J'essaye donc actuellement de créer un moteur de recherche, et maintenant, je doite sérieusement d'avoir pioché la bonne méthode...
Vous pouvez m'éclairer?
Afficher la suite 

4 réponses

Meilleure réponse
Messages postés
9433
Date d'inscription
mardi 9 octobre 2001
Statut
Membre
Dernière intervention
13 avril 2007
8
3
Merci
Salut :-)

Tu peux jeter un oeil du côté des indexs fulltext :

Indexs fulltext mysql

Autre lien sur les index fulltext mysql

a ++

http://www.vulgarisation-informatique.com : entraide, dépannage et vulgarisation informatique

Dire « Merci » 3

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources 192 internautes nous ont dit merci ce mois-ci

Commenter la réponse de cs_Anthomicro
Messages postés
122
Date d'inscription
mardi 19 novembre 2002
Statut
Membre
Dernière intervention
10 mars 2011
3
Merci
Salut

y'a un truc pour trouver les balises . Tu peux te baser là-dessus :

if (preg_match_all("|<[a>]+>(.*)</[a>]+>|U", $ln, $match)){
$result = $match[1][0];
}

le $ln est la ligne courante dans la lecture du fichier
le $match est le (ou les) résultat du preg_match_all

Ce code récupère ce qu'il y a entre les balises .... Je pense qu'il n'y que 2-3 modifs à faire pour récupérer le href.

Bonne chance!

Dire « Merci » 3

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources 192 internautes nous ont dit merci ce mois-ci

Commenter la réponse de rekam
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005
0
Merci
P.S: Je précise, j'ai déja pensé à l'idée d'un moteur s'appuyant sur les grands du web (google, yahoo, lycos...).
J'essaye plutôt de chercher une méthode plus indépendante.
Commenter la réponse de o0Leo0o
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005
0
Merci
Merci à vous, vos réponses vont sûrement m'aider beaucoup, je me lance dans cette grande aventure...
Commenter la réponse de o0Leo0o