Obtenir la source d'une page Google

Leucistic Messages postés 61 Date d'inscription mercredi 24 septembre 2008 Statut Membre Dernière intervention 16 juin 2012 - 13 janv. 2011 à 21:41
seb576 Messages postés 43 Date d'inscription mercredi 17 novembre 2010 Statut Membre Dernière intervention 3 juin 2012 - 14 avril 2011 à 13:08
Bonjour à tous,

Je voudrais récupérer le titre d'un film à partir d'un nom de fichier qui peut être compliqué, mais qui comporte tout de même le titre du film en lui même.
Pour cela, j'ai pensé à faire une requête sur Google, dans l'onglet Videos. Ainsi, Google me sortira ses résultats, avec le titre du film en gras, dans chacun des résultats (testé à la main dans un Web browser, cela faisait exactement l'effet désiré).
Le problème est que, lorsque j'envoie ma requête et que je récupère le code source de la page, je récupère en fait le code source d'un script de Google ! =S

Alors voici la fonction que j'utilise :
try {
url = new URL(lien);
URLConnection urlConnection = (HttpURLConnection)url.openConnection();
urlConnection.setRequestProperty("User-agent","");
BufferedReader buffer = new BufferedReader(new InputStreamReader(urlConnection.getInputStream(), "UTF-8"));

String ligne;
do
{
ligne = buffer.readLine();
retour += ligne + "\r\n";
}
while (ligne != null);
}
catch (Exception e) { e.printStackTrace(); }


Et voici un extrait de ce que cela renvoi :
var _gjwl=location;function _gjuc()
{
var e=_gjwl.href.indexOf("#");
if(e>=0)
{
var a=_gjwl.href.substring(e);
if(a.indexOf("&q=")>0||a.indexOf("#q=")>=0)
{
a=a.substring(1);
if(a.indexOf("#")==-1)
{
for(var c=0;c<a.length;)
{
var d=c;if(a.charAt(d)=="&")++d;


1ere question : En quel langage est ce script ? (Je ne connais pas le JavaScript, mais c'est ce qui me viendrait à l'idée en premier)

2eme question : Avez vous une idée de pourquoi je récupère ce script et pas la page directement ? Comment pourrais-je faire pour obtenir les résultats ?


Merci d'avance pour votre aide.



L'ouverture de l'esprit n'est pas une fracture du crâne

6 réponses

Leucistic Messages postés 61 Date d'inscription mercredi 24 septembre 2008 Statut Membre Dernière intervention 16 juin 2012 1
15 janv. 2011 à 13:27
Personne n'a d'idées de comment récupérer le code source de la page, plutôt que le code source du script ?



L'ouverture de l'esprit n'est pas une fracture du crâne
0
seb576 Messages postés 43 Date d'inscription mercredi 17 novembre 2010 Statut Membre Dernière intervention 3 juin 2012 1
13 avril 2011 à 13:56
A première vue ce serait du JavaScript mais mal indenté.
Essaie de debugger ton code en mode pas à pas pour voir si tu accèdes à ta page.
Et si oui, pourquoi tu bifurques sur ce script.
0
Leucistic Messages postés 61 Date d'inscription mercredi 24 septembre 2008 Statut Membre Dernière intervention 16 juin 2012 1
13 avril 2011 à 16:03
Ben oui, j'arrive bien à accéder à la page !!!
Mais au lieu de me renvoyer ce que l'on voit d'afficher, c'est le script Javascript de la recherche qui est renvoyé ...

L'ouverture de l'esprit n'est pas une fracture du crâne
0
seb576 Messages postés 43 Date d'inscription mercredi 17 novembre 2010 Statut Membre Dernière intervention 3 juin 2012 1
14 avril 2011 à 09:20
Tu travailles sur quel IDE (logiciel de dév) JAVA ?
As tu la possibilité de faire un mode pas à pas pour consulter les variables de ton programme et voir ce que cela te renvois.

Montre nous l'url que tu passes pour qu'on en sache un peu plus.

Merci bonne journée.
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Leucistic Messages postés 61 Date d'inscription mercredi 24 septembre 2008 Statut Membre Dernière intervention 16 juin 2012 1
14 avril 2011 à 10:09
Merci pour la définition de IDE ! lol.
J'utilise Eclipse, donc oui je peux faire du pas a pas, mais je l'ai déjà fait.
L'URL que j'envoie est : http://www.google.fr/search?q=simon+werner+dvdrip&tbo=p&tbm=vid&source=vgc&hl=fr&aq=f pour rechercher simon werner dvdrip
Enfin, cette derniere me renvoie un script comme affiché ci dessus.

L'ouverture de l'esprit n'est pas une fracture du crâne
0
seb576 Messages postés 43 Date d'inscription mercredi 17 novembre 2010 Statut Membre Dernière intervention 3 juin 2012 1
14 avril 2011 à 13:08
J'ai réalisé l'outil que tu viens de faire,
c'est vraiment un outil top.
En fait, je scanne toutes les pages de recherche de Google.
Apparemment c'est tout à fait normal, Google s'est protégé des outils qui récupèrent les sources html en employant ce petit script. Moi aussi il me le fait.
Le plus chiant, c'est que le script JavaScript est illisible et non réutilisable pour capturer les requêtes Google.
Pour ce qui est de ta requête, je l'ai lancée, je n'arrive tout bonnement pas à me connecter via mon outil. Via le navigateur ça fonctionne bien.
J'ai même pas de script comme toi. J'ai rien. Erreur de connexion 403.

Peux tu faire des essais sur d'autres moteurs de recherche pour voir si ça vient de Google question sécurité de données.

++
0
Rejoignez-nous