GOOGLE SEARCH PARSER

cs_caviar Messages postés 329 Date d'inscription samedi 4 janvier 2003 Statut Membre Dernière intervention 29 mars 2015 - 6 juin 2007 à 14:00
cs_badoux Messages postés 137 Date d'inscription samedi 21 février 2004 Statut Membre Dernière intervention 16 décembre 2008 - 16 déc. 2008 à 14:15
Cette discussion concerne un article du site. Pour la consulter dans son contexte d'origine, cliquez sur le lien ci-dessous.

https://codes-sources.commentcamarche.net/source/43012-google-search-parser

cs_badoux Messages postés 137 Date d'inscription samedi 21 février 2004 Statut Membre Dernière intervention 16 décembre 2008
16 déc. 2008 à 14:15
Je confirme il existe bien un flux pour les résultats de google, mais le problème est que ceux-ci sont limité à environ 20 résultats.
De mon côté je vais devoir également passer par un parser pour la récupération des résultats, ravis de ton commentaire "ordiman85", seulement 3sec, c'est pour toute les pages de tous les moteurs, ou pour une seule d'un moteur ?.
Une question persiste dans ma petite tête: Est-ce que Google, Yahoo, etc, ne finiront pas, par nous mettre en black-list, à force de leur rendre visite constament ?
Utilisateur anonyme
2 juil. 2008 à 20:09
je vous propose ça:

<form action="http://www.google.fr/cse" id="cse-search-box" target="_blank">
  

    
    
    
    
  

</form>
<script type="text/javascript" src="http://www.google.com/coop/cse/brand?form=cse-search-box&amp;lang=fr"></script>
koutb Messages postés 21 Date d'inscription mercredi 2 avril 2003 Statut Membre Dernière intervention 17 mai 2008
17 mai 2008 à 23:46
1001 merci c'est ce que je cherche
R3dDragon Messages postés 62 Date d'inscription dimanche 30 juillet 2006 Statut Membre Dernière intervention 14 avril 2009
28 janv. 2008 à 16:27
Les résultats via Google et les API sont différents...
Il est donc mieux (en parlant qualité des résultats) de passer par un perseur, mais d'un autre côté les APIs utilise moins de ressource ...

C'est toujours à voir, chacun fait ce qu'il veut...
ordiman85 Messages postés 41 Date d'inscription samedi 4 mars 2006 Statut Membre Dernière intervention 19 mars 2010
15 juin 2007 à 19:44
J'ai fait ça pour des moteurs de recherche de mp3 (radioblog, eSpew, AOL audio, ...) et ça fonctionne super bien. J'ai créé une fonction pour chaque moteur au début mais ensuite j'ai fini par faire une fonction générale du style "searchAudio($engines, $search, $page, $nbperpage...)" avec des fichiers de configuration xml personnalisables basés sur les fichiers xml OpenSearch de firefox. Aujourd'hui mon script gère 11 moteurs et affiche les résultats des moteurs sélectionnés en 1 page. Avec 3 moteurs activés la réponse est d'environ 3 secondes, sauf si les résultats sont déjà dans le cache.

Je confirme que l'inconvénient de parser du html c'est lorsque la page change, mais un petit coup de patch au niveau des expressions régulières, et ça repart :) d'autant plus qu'il est facile de savoir si les résultats sont anormaux par une fonction (longueur de la réponse, balises dans la réponse, etc).
@+
LeFauve42 Messages postés 239 Date d'inscription vendredi 20 octobre 2006 Statut Membre Dernière intervention 20 avril 2009
11 juin 2007 à 09:36
Salut,

J'ai ecrit ce genre de code quelques fois, et si ca fonctionne, attend-toi a patcher tous les 6 mois (avec de la chance)... Comme dit Neigedhiver, google ca bouge beaucoup...

Par contre, je crois bien qu'ils ont arrete de fournir des clef d'API googlesearch... (fin 2006 si je me souviens...). Probablement pour pousser leur nouvelle API ajax...

Donc, si tu n'en as pas deja une, c'est trop tard...
(enfin, il doit etre possible de faire des appels ajax depuis le serveur, mais j'avoue ne pas avoir eu le courage de regarder :o) ).
cs_caviar Messages postés 329 Date d'inscription samedi 4 janvier 2003 Statut Membre Dernière intervention 29 mars 2015 2
7 juin 2007 à 09:42
je suis pas encore au niveau des classes objet ...
faut que je m'y penche ... j'arive à peu près à bidouiller celles des autres... mais en autodidacte ça demande un peu plus de temps à prendre en main ... et le temps c'est ce qui me manque le plus dans la vie ...lol :D :D
coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 44
7 juin 2007 à 05:19
reinventer la roue c'est pas forcement mal neigedhiver...

moi j'aurais pas (mais alors pas du tout) fait comme ca : j'aurais fait une classe abstraite MoteurDeRecherche, et des classes filles genre YahooSearch, MsnSearch, GoogleSearch, ExaleadSearch, etc... et une classe Factory pour ensuite faire un truc genre :

$a=new Search('Google://word1/word2/....');

ca ferait un truc plus souple, capable de chercher des images sur plein de moteurs, et autre....
neigedhiver Messages postés 2480 Date d'inscription jeudi 30 novembre 2006 Statut Membre Dernière intervention 14 janvier 2011 19
6 juin 2007 à 17:43
Ouais non mais pfffffff

Si tu sais pas utiliser un proxy ou autre, aussi... Parce que bon, intranet, peut-être, mais ton intranet il est pas isolé du web, la preuve... Donc il y a forcément un moyen de relayer la requête. M'enfin bon... Moi j'dis _a, j'dis rien, hein... C'est juste qu'avec une API, forcément, c'est plus efficace qu'en parsant toutes les pages de résultat... Surtout que le jour où Google change un en
tout ton code tombe à l'eau...

Enfin c'est toi qui vois.
cs_caviar Messages postés 329 Date d'inscription samedi 4 janvier 2003 Statut Membre Dernière intervention 29 mars 2015 2
6 juin 2007 à 17:33
nan j'ai pas fait ça just pour le fun ...
e fait je déveoppe un intranet et du coup vu que google verrifie la provenance des requettes pour autoriser ou pas une clef api en fonction du site je ne peux pas fournir d'adresse de site puisque ce sera en intranet...
maintenant si gg fournis des résultats parsés en XML !! alors là je prends dessuite ... ceci dit ou ça ?
thx
@++
neigedhiver Messages postés 2480 Date d'inscription jeudi 30 novembre 2006 Statut Membre Dernière intervention 14 janvier 2011 19
6 juin 2007 à 17:25
Salut,

Tu réinventes la roue... C'est bien... Mais bon...

http://www.webrankinfo.com/google/outils/google-api.php
http://code.google.com/

Bref, une recherche sur google, et c'est marre.

Enfin c'est bien, ça a du t'occuper un certain temps, et puis c'était un bon exercice.
FloBaoti Messages postés 15 Date d'inscription vendredi 9 décembre 2005 Statut Membre Dernière intervention 27 mai 2014
6 juin 2007 à 14:08
Google permet d'avoir les résultats en XML me semble, non ? Si c'est toujours de vigueur, je ne vois pas pourquoi se compliquer à parser du HTML.
cs_caviar Messages postés 329 Date d'inscription samedi 4 janvier 2003 Statut Membre Dernière intervention 29 mars 2015 2
6 juin 2007 à 14:00
Voila voila... j'attends vos commentaires :)
Rejoignez-nous