Moteur de recherche à l'échelle du web

Résolu
o0Leo0o Messages postés 116 Date d'inscription samedi 19 juin 2004 Statut Membre Dernière intervention 20 août 2005 - 3 nov. 2004 à 12:45
o0Leo0o Messages postés 116 Date d'inscription samedi 19 juin 2004 Statut Membre Dernière intervention 20 août 2005 - 6 nov. 2004 à 13:48
Depuis hier, je me demande comment créer une sorte de google-like.
Déja, je me suis interessé sur la méthode à utiliser, celle qui m'est restée en tête est la suivante:
1. l'admin du moteur entre une adresse internet
2. un script va sur ce site
3. il range quelque part le contenu du site
4. il cherche toutes les balises renvoyant vers un lien absolu
5. il note les liens trouvés dans une bdd
6. il recommence l'opération mais sur les nouveaux sites qu'il connait
...

Mais voila, des questions me tracassent:
1. la mise en cache du contenu de milliers de site, ça doit peser lourd
2. comment localiser des balises sur une page web (je pense qu'il s'agit d'un outil dérivé de fopen

J'essaye donc actuellement de créer un moteur de recherche, et maintenant, je doite sérieusement d'avoir pioché la bonne méthode...
Vous pouvez m'éclairer?

4 réponses

cs_Anthomicro Messages postés 9433 Date d'inscription mardi 9 octobre 2001 Statut Membre Dernière intervention 13 avril 2007 8
3 nov. 2004 à 14:20
Salut :-)

Tu peux jeter un oeil du côté des indexs fulltext :

Indexs fulltext mysql

Autre lien sur les index fulltext mysql

a ++

http://www.vulgarisation-informatique.com : entraide, dépannage et vulgarisation informatique
3
rekam Messages postés 122 Date d'inscription mardi 19 novembre 2002 Statut Membre Dernière intervention 10 mars 2011
6 nov. 2004 à 12:49
Salut

y'a un truc pour trouver les balises . Tu peux te baser là-dessus :

if (preg_match_all("|<[a>]+>(.*)</[a>]+>|U", $ln, $match)){
$result = $match[1][0];
}

le $ln est la ligne courante dans la lecture du fichier
le $match est le (ou les) résultat du preg_match_all

Ce code récupère ce qu'il y a entre les balises .... Je pense qu'il n'y que 2-3 modifs à faire pour récupérer le href.

Bonne chance!
3
o0Leo0o Messages postés 116 Date d'inscription samedi 19 juin 2004 Statut Membre Dernière intervention 20 août 2005
3 nov. 2004 à 12:50
P.S: Je précise, j'ai déja pensé à l'idée d'un moteur s'appuyant sur les grands du web (google, yahoo, lycos...).
J'essaye plutôt de chercher une méthode plus indépendante.
0
o0Leo0o Messages postés 116 Date d'inscription samedi 19 juin 2004 Statut Membre Dernière intervention 20 août 2005
6 nov. 2004 à 13:48
Merci à vous, vos réponses vont sûrement m'aider beaucoup, je me lance dans cette grande aventure...
0
Rejoignez-nous