Obtenir les infos d'une page AJAX d'un site exterieur

Signaler
Messages postés
99
Date d'inscription
vendredi 20 avril 2007
Statut
Membre
Dernière intervention
28 juillet 2011
-
kohntark
Messages postés
3708
Date d'inscription
lundi 5 juillet 2004
Statut
Membre
Dernière intervention
27 avril 2012
-
Bonjour à toutes et tous!

Voilà, pour le boulot, je fait une petite application qui permet de récupérer automatiquement les informations d'un concurrent sur son site internet, ce qui est légal. Et je fait cette application en PHP et JavaScript.

Mon problème est que si j'inclu la page avec un "include", il fait donc partie de ma page et de mon site, mais dans la page appelée, il y a des appels de page JavaScript qui contiennent les fonctions, et donc tous les appels de JavaScript sont impossible. Y a-t-il un moyen de contourner?


Je vous remercie d'avance!

Roro

22 réponses

Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
Je pense que tu as déja de la chance qu'ils n'aient vu que tu piquais des infos. N'en demandes-tu pas un peu trop ? Si cela avait été moi, d'une tu ne serai plus redirigé vers le site mais en plus je pense que je t'enverrais vers une page avec des infos totalement fausses, histoire que tu n'y vois que du feu.
S.
Messages postés
99
Date d'inscription
vendredi 20 avril 2007
Statut
Membre
Dernière intervention
28 juillet 2011

Salut!

Je comprend que ça paraisse bizarre de vouloir faire ça, mais c'est légal. C'est juste une automatisation d'une récupération manuelle! Je ne récupère que ce qui est affiché, rien de plus. Car franchement, mettre quelqu'un qui se connecte à chaque page et qui récupère les infos à la main, je sais pas si t'aurais envie de faire ça...^^
Mais bon, merci de ce message...
Si d'autres personnes on des idées pour m'aider?

Merci d'avance!

Roro
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

Bonsoir,

Un include avec intégration d'une page d'un concurrent..

Et puis quoi encore !

La veille technologique est là pour empêcher ce genre de "information sucking"... On siat reconaitre un vrai navigateur d'un robot, qu'il soit en PHP, Perl ou JavaScript..

Que tu piques manuellement des infos, passe encore, mais que tu veuilles de l'aide pour aider à en faire un data sucker, là je ne pense pas qu'ici qui que ce soit qui ait ne serait-ce qu'un semblant de déontologie pro voudra t'aider !
Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
Rhaaa !! T'as pas compris le monsieur.. c'est LEGAL.. Biensur, connaissant 'un peu' le droit je vais m'éviter de répondre, mais il faudrait juste voir s'il est d'acord pour qu'on lui pompe son site.. LOL !!
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

LEGAL n eveut pas dire déontologique... nuance de poids, et de poids très fort.

Alors stoppons la polémique.. Un partenaire qui accepte ces conditions te donne les infos techniques pour pomper les infos, un "partenaire inconscient" ne risque pas de te les donner, mais risque très fort de te poursuivre devant les tribunaux.

Je connais aussi assez bien le droit informatique..
Messages postés
99
Date d'inscription
vendredi 20 avril 2007
Statut
Membre
Dernière intervention
28 juillet 2011

Salut,

Merci de cette polémique avortée...
Mais ce site n'est pas là pour ça.
Puisque personne veut aider, tant pi.
Je sais que c'est pas "déontologique", mais la grande distribution s'en fout totalement de la "déontologie"... Citez-moi UNE seule enseigne qui est totalement clean! Aucune, alors votre déontologie, c'est bien beau, mais ça existe pas dans le commerce. Notre concurrent le fait chez nous, alors nous considérons qu'il est d'accord pour qu'on le fasse chez lui...
Allez, bravo pour tes deux messages de plus qui feront augmenter tes stats et qui ne servent strictement à rien dans mon sujet.

Si quelqu'un a une solution, merci de votre aide! Même en privé, histoire de ne pas se faire "lyncher" par les grands hommes qui respectent tout...

Cordialement,

Roro
Messages postés
3708
Date d'inscription
lundi 5 juillet 2004
Statut
Membre
Dernière intervention
27 avril 2012
21
Salut,

Je pense que tu devrais préciser le but de ton script :
Est ce pour inclure une page du concurrent sur le site de ta société et ainsi qu'elle soit visible par tes visiteurs (ou autre but relevant du pompage) ?
Est ce pour récupérer des données qui seront par la suite analysées par du personnel de l'entreprise, par exemple pour adapter une stratégie marketing ?

Je pense que la démarche est différente et dans le second cas je ne vois pas trop le problème.


Cordialement,

Kohntark -
Messages postés
99
Date d'inscription
vendredi 20 avril 2007
Statut
Membre
Dernière intervention
28 juillet 2011

Salut Kohntark,

En effet, c'est bien le second cas que je veut.
Je souhaite automatiser la récupération des données diffusées sur le site web du concurrent, donc visible par tous, pour les faire analyser par le personnel. Une pratique très courante de nos jours vu l'ouverture grâce à Internet.
Le problème est qu'il y a des pages chargées par AJAX, mais je ne vois pas trop comment faire pour afficher le reste de la page.

Merci beaucoup de votre aide,

Roro
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

Techniquement, pour accéder aux fonctions Ajax, il faut récupérer et utiliser le Javascript (en général des fonctions JQuery ou Mootools).

Si le code de service JQuery ou Mootools sur le serveur est laxiste (pas d'anti-leech, pas de gestion de sessions), ça peut fonctionner.

Si un anti-leech est en service, ça se complique sigulièrement.
Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
Vous allez voir.. Ce post va se transformer en : Comment ne pas me faire piquer mes infos..
Ça pourrait être intéressant.
En effet, si tu sais que ton concurrent vient te piquer tes infos (ce qui à tes yeux légitime de faire de même), pourquoi ne mets-tu pas en place des 'contre-mesures' ou autres protections..
Juste cela te permettrait déja de trouver des moyens de mieux lui 'piquer' ses infos..
Soyons constructifs.. LOL !!
S.
Messages postés
99
Date d'inscription
vendredi 20 avril 2007
Statut
Membre
Dernière intervention
28 juillet 2011

KohnSalut,

En tous cas, ce qui serais constructif, ça serait surtout de pas venir pourrir un sujet TECHNIQUE avec des commentaires totalement hors sujet avec le cadre du site!
Syndrael, si tu ne veux pas répondre à cette question, si tu n'est pas d'accord avec ce que je fais, et bah je te propose de passer un mois dans une grande entreprise de distribution et de voir que c'est pas le monde de Casimir, et aussi de ne pas venir poster un commentaire qui n'est utile que pour tes stats, mais totalement pour ceux qui veulent travailler. Moi non plus j'suis pas vraiment à l'aise avec ça, mais j'suis payé pour, et j'veut pas pourrir ma vie pour trois zigotos qui passent leur journées sur un forum de technique PHP à parler de marketing et de déontologie à la Casimir! De plus, si des infos sont publiées sur internet, c'est que tout le monde peut y avoir accès...

Bref, pour Kohntark et Nautilus,
Merci de votre aide. Je vais voir ce que c'est que les serveurs laxistes, j'avoue que je ne connais pas. Merci de ta piste Nautilus, j'vous dirait quoi si j'trouve quelquechose!

Roro
Messages postés
3708
Date d'inscription
lundi 5 juillet 2004
Statut
Membre
Dernière intervention
27 avril 2012
21
Re Roro,

Je pense que tu te trompes lourdement :
- manquer de déontologie dans les entreprises (ce qui n'est pas propre à la grande distribution) est un fait, n'empêche qu'il est tout à fait légitime d'en avoir ici. Le monde part à la dérive et nous allons droit dans le mur avec ces mentalités.
Il faudrait voir à ne pas inverser les rôles; ce qui est anormal c'est le non respect du travail d'autrui, le vol manifeste et j'en passe.
- il me corrigera si je me trompe, mais je pense que Syndrael s'en bas des stats, il est ici pour aider les autres et partager, ce qui n'est pas donné à tout le monde. De plus il est certainement très bien au courant de ce manque de déontologie néfaste qui trône un peu partout. Je ne pense pas qu'il ait besoin d'exemples supplémentaires.
Si je vais bourrer la gu... à mon voisin est ce une raison pour qu'il fasse de même avec toi ?


Pour en revenir à ton problème :
Centraliser / trier / récupérer des données mise à disposition du public pour analyse en interne ne s'apparente pas, selon moi, à du vol ou du plagia. C'est juste une automatisation de ce que pourrait faire un humain.

Contrairement à ce qu'il s'est dit je ne pense pas qu'il soit possible de différencier un robot d'un être humain (sauf bien sur à utiliser un système d'authentification, ... et encore)

Dans ton cas je procéderais ainsi :
- analyse des échanges client / serveur (via whireshark par exemple), des form et des codes JS
- utilisation de curl ou des sockets si curl ne le permet pas, ce qui m'étonnerait.


@Syndrael :
Comment ne pas se faire piquer ses infos ? ... sans authentification franchement je ne vois pas trop.
Avez vous des idées ? ( et hop, c'est parti !!!)


Cordialement,

Kohntark -
Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
Non, mais réellement ça peut être un sujet de discussion super intéressant. Une réflexion collective qui peut être utile à tous et plusieurs cerveaux valent mieux qu'un.
Avant de parler d'idées, je veux juste dire que je connais assez bien les infras de Carrefour et de feu Champion pour avoir travaillé sur des optimisation (code, workflow, architecture, config et base de données..) idem pour d'autres sites de jeux et de media à forte audience.
..et puis aussi qqs articles de presse à mon sujet.
Bon, ça c'est pour la réponse de je sais ce que c'est..
Pour les idées.. le but est naturellement de s'appuyer sur les faiblesses des solutions 'de l'autre coté'.. Tout d'abord le truc tout bête le User-Agent, le HTTP Referer, la présence de variable d'authentification.
Une piste que j'avais voulu tester un jour mais le temps m'en a manqué: Selenium (ou autre produit similaire). On teste les clics sur le site depuis Selenium et on choppe les entetes HTTP qu'on met en fichier qu'il nous reste à analyser..
Jamais fait, peut-être une grosse connerie mais une idée peut être à valider en terme de faisabilité.
Bonne soirée Messieurs
S.
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

Hello,

lol Syndrael, moi aussi j'ai bossé sur des projets Carrefour, Auchan et Leclerc.

La soluce Selenium, oui, par exemple.. mais il y a d'autres pistes intéressantes pour se garantir du leech.. le page-request rate...

Si plus de X pages par minute, on peut assurer avoir affaire à un bot.. et dans ce cas, une comparaison des signatures des boots permet de bannir l'IP pour x heures..
Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
D'un autre coté, tout dépend de l'info que tu veux récupérer et surtout la fréquence usuelle de rafraichissement de la dite-donnée. Si une fois par jour est tolérable, le bannissement d'IP est plus dur.
Je me demande s'il n'existe pas sur Firefox un plugin pour effectuer une manipulation de souris et là dans ce cas, il y a peu de parade. D'autant que tu as un plugin (dont j'ai oublié le nom mais voici une adresse: http://www.kashifblog.com/2008/11/6-firefox-auto-reload-refresh-plugins.html) qui rafraichit ta page à une fréquence donnée. Au final, un VM Ware, un Firefox et 3 4 plugins bien trouvé et hop, tu as un utilisateur virtuel.
S.
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

Pas si évident..

Pour quelques uns de mes clients, j'ai développé un anti leech autrement plus sensible..

Mais là, on a aussi le cecret entreprises.

Comme quoi l'espoinnage industriel (puisque c'est le vrai nom de la chose) apporte aussi ses contre mesures..
Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
Et tu ferais quoi devant le comportement suivant ?
- un 'firefox' (ou autre navigateur assez docile..) avec un RefreshPage, un scénario de clic, un Logger HTTP (dans un fichier) et un effacement des cookies qui passe sur le site à des périodes aléatoires via des proxy différents (par TOR ou autre..), le tout dans une VM Ware ou un VBox.
Perso je me pose la question.. LOL !!
Mine de rien on répond un peu à la question initiale et c'est sympa de mettre en commun nos connaissances..
S.
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

Oui, face à un arsenal de proxies, un scénario de clic, il est plus difficile de traquer les robots de leech.

Et il s'agit d'une question que se posent de plus en plus d'entreprises, comment protéger mes données sensibles de la concurrence tout en fournissant une info claire à mes clients?
Messages postés
2381
Date d'inscription
lundi 4 février 2002
Statut
Membre
Dernière intervention
29 décembre 2012
12
Dans la série des idées bêtes.. au lieu d'afficher un prix, tu crées l'image d'un prix. Moins facile à exploiter, sauf rajout d'un OCR dans le traitement. Grillage de neurone en cette matinée ensoleillée..
S.
Messages postés
662
Date d'inscription
vendredi 26 septembre 2008
Statut
Membre
Dernière intervention
18 septembre 2009

Ce n'est pas une idée idiote, au contraire, et ça a déjà été fait, en plus en choisissant des nuances qui rendent la lecture ocr très complexe.
1 2