Moteur de recherche à l'échelle du web [Résolu]

Signaler
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005
-
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005
-
Depuis hier, je me demande comment créer une sorte de google-like.
Déja, je me suis interessé sur la méthode à utiliser, celle qui m'est restée en tête est la suivante:
1. l'admin du moteur entre une adresse internet
2. un script va sur ce site
3. il range quelque part le contenu du site
4. il cherche toutes les balises renvoyant vers un lien absolu
5. il note les liens trouvés dans une bdd
6. il recommence l'opération mais sur les nouveaux sites qu'il connait
...

Mais voila, des questions me tracassent:
1. la mise en cache du contenu de milliers de site, ça doit peser lourd
2. comment localiser des balises sur une page web (je pense qu'il s'agit d'un outil dérivé de fopen

J'essaye donc actuellement de créer un moteur de recherche, et maintenant, je doite sérieusement d'avoir pioché la bonne méthode...
Vous pouvez m'éclairer?

4 réponses

Messages postés
9433
Date d'inscription
mardi 9 octobre 2001
Statut
Membre
Dernière intervention
13 avril 2007
8
Salut :-)

Tu peux jeter un oeil du côté des indexs fulltext :

Indexs fulltext mysql

Autre lien sur les index fulltext mysql

a ++

http://www.vulgarisation-informatique.com : entraide, dépannage et vulgarisation informatique
Messages postés
122
Date d'inscription
mardi 19 novembre 2002
Statut
Membre
Dernière intervention
10 mars 2011

Salut

y'a un truc pour trouver les balises . Tu peux te baser là-dessus :

if (preg_match_all("|<[a>]+>(.*)</[a>]+>|U", $ln, $match)){
$result = $match[1][0];
}

le $ln est la ligne courante dans la lecture du fichier
le $match est le (ou les) résultat du preg_match_all

Ce code récupère ce qu'il y a entre les balises .... Je pense qu'il n'y que 2-3 modifs à faire pour récupérer le href.

Bonne chance!
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005

P.S: Je précise, j'ai déja pensé à l'idée d'un moteur s'appuyant sur les grands du web (google, yahoo, lycos...).
J'essaye plutôt de chercher une méthode plus indépendante.
Messages postés
116
Date d'inscription
samedi 19 juin 2004
Statut
Membre
Dernière intervention
20 août 2005

Merci à vous, vos réponses vont sûrement m'aider beaucoup, je me lance dans cette grande aventure...