Meta moteur de recherche autonome?

ahamayed Messages postés 67 Date d'inscription mardi 1 mai 2007 Statut Membre Dernière intervention 31 juillet 2011 - 3 avril 2008 à 00:32
ahamayed Messages postés 67 Date d'inscription mardi 1 mai 2007 Statut Membre Dernière intervention 31 juillet 2011 - 5 avril 2008 à 00:51
Meta moteur de recherche autonome?


Bonjour,
bon voila , je suis sur un projet de creation de moteur de recherche externe .En quelque sort le moteur de recherche ne sera pas dans une page web d'un site comme etant en interne , non mais plutot tout une page est occupée par le moteur; un peut comme google mais moins en fonctionalités. j'ai fait le tour du web cherchant une methode qui me permetrait de developper un meta moteur de recherche qui index des pages web selon une liste de combo contenant les URL souhetés.c'est-a-dire que seulement la recherche sera effectué sur les adresses indiquées au script. au debut j'ai pensé aspirer les sites puis de créer une base de données pour tous les sites aspirés et enfin un script qui va lire dans les dossiers des sites pour afficher les resultats de la requete .

je voulais donc votre avis sur les deux methode ( soit une liste d'url ou aspirer les sites) est-ce vraiment possible ?
aussi je voudrais bien que vous me proposier un langage qui saurait faire la tache demandée !

je me debrouille en php - MySQL , C , C++ , Javascript, python , Ruby.

13 réponses

coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 44
3 avril 2008 à 02:19
salut

ta methode est la bonne, cependant, tu dois noter plusieurs choses avant de commencer ton projet
-c'est un projet qui a des contraintes enormes
- temps de recherche de pages a partir de criteres donnees
- fiabilite de l'indexation (si je cherche "captcha, php", je dois avoir des reponses correctes, sinon, ton projet ne sert a rien)
- indexation rapide (si tu mets longtemps pour indexer les pages d'un site web, tu ne pourras pas en indexer beaucoup, et tu ne pourras pas non plus verifier les mises a jours, t'aurais donc peu de choix dans tes resultats)
- bande passante (tu vas consommer pour indexer...)
- nombre d'entrees dans une table (en general, c'est 2^32 la limite, or, exalead en est "deja" a 2^34 sites references, et c'est deja enorme... je sais pas si t'imagines le temps de calcule de n'importe quelle requete select avec un where sur un champ sans index, sur une table comme ca...)
-c'est pas un projet simple
-t'as beaucoup de concurence
-l'orthographe n'est pas toujours la bonne pour les mots d'une page... faut que t'en tiennes compte

exalead a refait son propre sgbd pour ce projet, et ils ont fait leur propre langage...

a mon avis, ton script qui indexe les pages doit-etre fait dans un langage rapide, php c'est mort... python, a la limite, ruby, j'en sais rien. C, ca peut-etre interessant, mais pour parser une page, ca va pas etre tres tres simple.

faut que tu puisses adresser ton sgbd perso a partir du langage que tu utiliseras, donc je te deconseille le php si tu recodes ton sgbd... sinon, t'as l'embaras du choix...

/**
* @author coucou747 <coucou747@hotmail.com>
* @see irc://cominweb.uni-irc.net/#programmation
*/
1
malalam Messages postés 10839 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 2 mars 2010 25
4 avril 2008 à 20:22
Hello,

concernant la techno à utiliser : PHp me semble en effet trop lent pour ça. Python, je suis d'accord, ça me semble tout indiqué, alliant simplicité et performances.
Ruby est plus lent que PHP.
Perl et PHP se valent.
L'idéal restant le C en effet. Et sincèrement pour un projet tel que celui-là, je priviligierais les performances à la simplicité du code. Donc, je pencherais pour du bas niveau type C. Même si Python, pourquoi pas...
Et...un GROS (voire plusieurs) serveur.
0
coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 44
4 avril 2008 à 20:44
faudrait qu'on fasse des benchs serieux, parce-que j'ai de gros doutes sur ce que tu dis... j'avais pas du tout mesure les memes choses que toi quand j'avais fait mes benchs (c'etait il y a plusieurs annees), php etait terriblement lent compare au perl...

cote vitesse, j'avais : python > perl > php

que tu annonces ruby plus lent que php m'etonne aussi...

faudrait qu'on fasse plusieurs programmes betes comme : acces aux donnees d'un tableau, tri d'un tableau, concatenation et substring de chaines de caracteres et regexp, en php, ruby, et perl, pour pouvoir comparer les langages, mais je doutes franchement que php s'en sorte correctement...

/**
* @author coucou747 <coucou747@hotmail.com>
* @see irc://cominweb.uni-irc.net/#programmation
*/
0
malalam Messages postés 10839 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 2 mars 2010 25
4 avril 2008 à 21:11
python > perl > php : je n'au pas dit le contraire, sauf que j'ai dit que php et perl se valent, et je le maintiens :
Python est nettement plus rapide.
Perl et PHP se valent, avec généralement un très léger avantage pour Perl, mais qui est négligeable et dépend des fonctionnalités utilisées.  Et Perl ne dispose pas de toute la puissance communautaire ET du support de PHP (évolutions fréquentes de la part de ses développeurs), ce qui amène à penser que PHP, dans l'avenir, sera de toute manière lus intéressant.
Ruby est TRES lent...en tous cas, dans un contexte web. Ruby est un merveilleux langage, attention...j'aime bcp. Elegant, racé...et complet, aussi. Mais pour le moment, il n'a pas les armes pour lutter avec PHP. Et je ne dis pas ça en tant que pro-PHP : j'adore PHP, mais je n'aurais aucun scrupule à le lâcher pour un langage qui me convient mieux. Alors j'aime Ruby, il est très agréable de coder avec, et pour des applications simples, il est plus performant que PHP en termes de temps de développement (et ça, c'était une gageure!). Mais pour des développements complexes...il ne peut pas lutter (pour le moment...mais quand même, précisions que Ruby est un langage qui a un certain âge, et qu'il est juste à a mode grâce à son framework web : Ruby On Rails...on le redécouvre, un peu comme XMLHTTP. Et Ruby On Rails n'évoluera sans doute pas autant que PHP, voyons les choses en face).
 
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
ahamayed Messages postés 67 Date d'inscription mardi 1 mai 2007 Statut Membre Dernière intervention 31 juillet 2011
4 avril 2008 à 22:45
au fait vous devez savoir que google a été programmé en Python enfin d'après certains articles que j'ai lu sur le web.Mais en toute franchise , pour moi google c'est une arnaque tout simplement. a quoi lui sert la grande capacité de ses serveur , une memoire titanesque, une capacité de calcul montrieuse ...il serait stupide de ma part de ne pas reconaitre la performence de ce moteur ,mais le monde ne doit pas baisser les bras devant ce geni. je suis sur et certain qu'il y a une methode simple de comprendre le fonctionnement de google et meme de le surpasser. et dire que google se fait de l'argent avec l'algèbre linéaire ...


j'ai fais une petite esperience sur mon PC: j'ai stocké dans une clé USB un dossier composé de 842 sous repertoire contenant 2138 fichiers de toutes sortes d'extensions. le tout  avait une taille de 118 Mo. l'objectif etait de lancer une requette  a l'assistant de recherche de windows xp dans le but de rechercher un mot ou un ensemble de mots clés en lisant les fichiers dans le repertoire principal . le temps max de recherche dependait du mot ou de l'expression rechercher. plus les fichier on en commun l'expression recherché plus le temps pour afficher les premiers resultat etait court (2 a 3 second pour une vingtaine de resultats mais la recherche totale ne dure jamais 30s).pour l'instant je tente de faire le raport entre la capacité de la RAM , la vitesse du processeur , le nombre de fichiers et de repertoires a traiter et le temps de recherche.

je suis entreins egalement de faire un petit programme ecrit en php , C, Python pour une comparaison .la future experience va porté sur un site aspiré; le programme va lire dans les repertoire du site et dans le corps des fichiers lisibles a la recherche d'une expression . la page qui contiendra le plus de mot qu'il y a dans l'expression aura la note max c'est a dire 50 de facon arbitraire. les autres pages une note inferieure. puis une fois que le prgramme index la meilleure page , il va devoir nous afficher le lien principale de cette page . pour l'instant seul le parametre temps m'interesse.

j'espere que c'est la peine tout ça ....!!
0
malalam Messages postés 10839 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 2 mars 2010 25
4 avril 2008 à 23:24
Hmmm...

mon message ne va pas être très gentil : je demande pardon par avance. Ce n'est pas personnel...c'est juste à destination d'un certain état d'esprit semi rebelle à la con.
Il faut arrêter les conneries : le jour ou tu seras capable de réaliser ce qu'ont réalisé les développeurs de Google, tu pourras la ramener. Coder un truc sur son pc perso, et coder pour le WWW sont deux choses très différentes.
Soyons clair : Google est énorme...et fais un max de thunes! Ouais...mais en quoi cela nous autorise t il à les critiquer pour la simple raison qu'ils font de la thune ? Parce que le fond du problème est là. Les grands, on les fustige parce que ça fait bien.
Ouis mais voilà : les développeurs de Google ont fait beaucoup de choses...beaucoup grauites, beaucoup en open source, et beaucoup très en avance sur leur temps. Google est un excellent moteur de recherche à la base. Et il n'y a pas que ça : il y a tout l'univers google, toutes leurs idées. Ils font des choses vraiment impressionnantes.

Alors franchement...ta recherche sur ta clef USB, comparée à une recherche sur le web...il y a de quoi rire.
Je ne remets pas en cause TA recherche, ton algo, ton code...je remets en cause ta comparaison.
2138 fichiers, 842 sous répertoires, 118Mo. Il y a de quoi s'extasier, là? Il y a de quoi dire : Google, c'est de la merde, du foutage de gueule, regardez ce que j'arrive à faire avec mes petits moyens ?
Faut arrêter le "rebellisme" à 2 balles.
Commence par surpasser Google, et ensuite tu pourras la ramener. Mais là, tu ne fais qu'exposer des idées abstraites "je suis sûr qu'on peut faire mieux donc ce sont des cons".
Ouais, moi aussi, je suis sûr qu'Einstein était un donc et qu'on peut remettre en question ses théories. Demain, je m'y mets...donc vous pouvez me croire : c'était un con, puisque demain, je ferai mieux. D'ailleurs en voilà la pruve : moi, j'au réussi à prouver que 1+1 = 2! Avec MES petits moyens! Alors forcément, vous imaginez bien que je peux faire bien mieux que les grands scientifiques si j'avais les mêmes moyens qu'eux !
Faut arrêter...
"le monde ne doit pas baissre les bras devant ce génie"...ah non pardon "geni"...bref : ouais, c'est clair, ne nous laissons pas avoir par les génies, il faut combattre les idées géniales! Rallions-nous tous contre le génie!! A bas le génie! Le génie, c'est le mal!
Pfff...
0
ahamayed Messages postés 67 Date d'inscription mardi 1 mai 2007 Statut Membre Dernière intervention 31 juillet 2011
4 avril 2008 à 23:51
Merci Malalam pour ta remarque. mais j'aimerais bien que tu sache que google est mon favoris en matiere d'internet et d'ailleur pas seulement sur internet mais dans tous les domaines ! a te dire vrai dans ma chambre j'ai un poster du logo de google ! tout simplement parce que google m'impressionne , google est la reference  en tout , et jai pris conscience que tout ce qui est comme google ou microsoft ou apple ou youtube ou yahoo et j'en passe , sera demain. mon message n'avait pas pour but de denigrer et de rabaisser google , non ! loin de moi cette idée ! mais seulement les mot etaient en guise d'encouragement ! il est certain que rien n'est eternel ! et si j'ai agi ainsi c'est dans l'espoir d'etre parmi les heritiers de google ... pourquoi diable je suis dans l'incapacité de coder un moteur de recherche qui etablie sa recherche sur une liste de 60 URL de sites differents ? 
je me souvient qu'il n ' y meme pas une semaine de cela que le reseaux internet de ma ville etait tombé en panne et drole de panne , seul google ne marchait pas et cela a duré 3 jours . subitement on a senti l'interet d'avoir google pret de soit ! on avait meme pensé que c'etait la fin de google mais bon....
si t'as une idé sur le projet et bien fait nous signe ! en tout cas moi je suis entrein de bosser ladessus et je souhete reussir et le publié sur le forum . 
0
coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 44
4 avril 2008 à 23:59
je doute que google soit entierement fait en python...

exalead c'est un langage qu'ils ont fait pour l'occasion...
/**
* @author coucou747 <coucou747@hotmail.com>
* @see irc://cominweb.uni-irc.net/#programmation
*/
0
malalam Messages postés 10839 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 2 mars 2010 25
5 avril 2008 à 00:05
Alors si j'ai mal interprété ton message, pardonne-moi.
Mais comprends une chose : google et toi, vous n'avez pas les mêmes moyens. Oh, que cela ne t'empêche pas d'essayer de faire mieux, et je te souhaite de réussir. On a toujours besoin de mieux. Mais voilà, Google, c'est  tout un tas de développeurs doués, un tas de grosses machines,  et un gros tas d'argent pour faire avancer tout ça.
Voilà pourquoi toi, dans ta chambre, tu as tant de mal à lutter.
Et c'est normal.
Mais rien ne t'empêche d'essayer et, si tu as l'idée de génie, de réussir. C'est l'avantage avec le web : on peut encore réussir ce genre de prouesses...mais il faut se dépêcher, parce que ça ne va pas durer...comme dans tous les domaines de l'informatique. On ne crée plus un ordinateur génial dans son garage...on ne crée plus un jeu qui deviandra un blockbuster seul dans sa chambre...et bientôt, on ne révolutionnera plus le net sans de gros moyens. Mais là, il est encore temps pour le net...encore un peu. Mais c'est d'idées nouvelles dont tu as besoin, pas de reproduire ce qui existe déjà.
0
malalam Messages postés 10839 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 2 mars 2010 25
5 avril 2008 à 00:06
Google utilise majoritairement Pyhton, si. Mais je ne sais pas ce qu'il en est pour leur moteur de recherche par contre. Ceci dit, j'ai comme dans l'idée que c'est le cas.
0
ahamayed Messages postés 67 Date d'inscription mardi 1 mai 2007 Statut Membre Dernière intervention 31 juillet 2011
5 avril 2008 à 00:34
 on verra bien et j'espere que la providence viendra a moi !!!
coucou parle nous un peu de ce exalead ce peut etre la clé !?
0
coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 44
5 avril 2008 à 00:41
exalead, c'est un moteur de recherche http://www.exalead.fr/search tu peux remarquer qu'il n'a rien a envier a google niveau qualites, presentation, et fonctionalites pour la recherche de textes et d'images... il lui manque quoi ? tout le reste :)

j'aime beaucoup ce moteur :) on nous en avait fait une presentation lors de la finale de prologin 2007, et quand ils ont lance firefox pour nous montrer, google etait en page d'accueil xD

ils ont indexe 8 000 000 000 de pages, ils developpent donc actuellement un langage de programmation, un moteut de recherche, un sgbd capable d'avoir suffisement de lignes, etc...

/**
* @author coucou747 <coucou747@hotmail.com>
* @see irc://cominweb.uni-irc.net/#programmation
*/
0
ahamayed Messages postés 67 Date d'inscription mardi 1 mai 2007 Statut Membre Dernière intervention 31 juillet 2011
5 avril 2008 à 00:51
c'est une bonne info que tu me file là ; merci je vais faire un tour sur leur site !
0
Rejoignez-nous