Parcourir un site internet

Messages postés
4
Date d'inscription
dimanche 25 juin 2006
Statut
Membre
Dernière intervention
16 février 2008
- - Dernière réponse : badkrist
Messages postés
4
Date d'inscription
dimanche 25 juin 2006
Statut
Membre
Dernière intervention
16 février 2008
- 16 févr. 2008 à 18:21
Bonjour,

j'ai besoin de creer sous forme d'arbre, une representation d'un site internet quelconque. Sur un site simple (sans identification) tout se passe bien. Le probleme vient lorsque des variables php utilisant les methodes GET et POST sont utilisées. Je ne sais pas comment faire pour leur attribuer une valeur pour continuer de parcourir le site (on presume que j'ai les noms des variables ainsi que des valeurs qui fonctionnent).

Par exemple, sur http://agenstrauss.free.fr/, il faut definir des variable $login et $mdp qui permettent de se connecter à un compte. Mais si elle n'ont pas de valeurs, on est renvoyé directement sur la page de login. Pour acceder au reste du site, il faut donc s'identifier, et c'est la que je bloque...

Merci

BadKrist
Afficher la suite 

5 réponses

Messages postés
15838
Date d'inscription
jeudi 8 août 2002
Statut
Modérateur
Dernière intervention
4 mars 2013
82
0
Merci
Salut,

Et c'est quoi le problème au juste ? La grande majorité des sites demande maintenant d'être identifiés pour pouvoir tout visiter (ce qui est normal je dirais !).

Tu cherche à faire quoi ? Un robot qui parcoure automatiquement les sites qu'il voit ?
______________________________________
DarK Sidious
Commenter la réponse de cs_DARKSIDIOUS
Messages postés
4
Date d'inscription
dimanche 25 juin 2006
Statut
Membre
Dernière intervention
16 février 2008
0
Merci
En effet je cherche à faire un robot qui va parcourir automatiquement le site internet selectionner.
Sachant que l'utilisateur aura obligatoirement les noms des variables ainsi que leurs valeurs pour s'identifier.

Ainsi comment faire pour donner des valeurs aux variables d'identification.

Merci
BadKrist
Commenter la réponse de badkrist
Messages postés
719
Date d'inscription
lundi 5 décembre 2005
Statut
Membre
Dernière intervention
8 janvier 2014
6
0
Merci
Salut,

Si tu veux simuler le comportement d'un internaute et parcourir un site (avec authentification ou non), tu peux utiliser les librairies httpclient ou htmlparser ou les deux selon tes besoins.
Des exemples :
http://www.javafr.com/codes/WEB-SPIDER-WEB-CRAWLER_42291.aspx
http://www.javafr.com/codes/REDIRECTION-URL-TRANSMISSION-COOKIES_43051.aspx
Commenter la réponse de cs_AlexN
Messages postés
366
Date d'inscription
samedi 26 juin 2004
Statut
Membre
Dernière intervention
17 avril 2008
0
Merci
Bonjour,
Ou alors tu utilises le DOM XML (ca marchera que si le site est xhtml), et tu cherche un noeud , généralement c'est le champ mot de passe. Tu prend le noeud input frère (regarde Xpath) et tu récupères les "id" et "name" de ces deux champs.
Après tu crées ta requete HTTP, POST ou GET (il vaut mieux que ca soit en POST pour le webmaster ;) ); pour savoir ca, tu remontes au noeud ancetre "form" et tu cherche l'attribut "method".

Apres tu ouvres une socket vers le site et tu balance ta requete.

Si c'est pas du XHTML, c'est moins facile, tu fais ca en récuperant la page et en faisant une recherche "d'input".

PS: Je serais incapable de te dire quelle API spécifique utiliser, je viens de me mettre à JAVA et j'ai pas fini les tutoriaux Sun, mais j'ai une bonne connaissanec de php<=5.

_Marikou
Commenter la réponse de kishkaya
Messages postés
4
Date d'inscription
dimanche 25 juin 2006
Statut
Membre
Dernière intervention
16 février 2008
0
Merci
Merci beaucoup! Même si je n'ai pas tout compris des différentes pistes proposées, je sais que la solution est dans ce qui se trouve au dessus, je pense plus dans la réponse d' alexN . Le problème de la solution de kishkaya c'est qu'elle n'est pas assez générique, la plupart des sites n'étant pas en xhtml, et que cela fait un grand nombre de cas à traiter.

Si vous avez d'autres explications ou d'autres pistes, je suis prenneur!

BadKrist
Commenter la réponse de badkrist