WEBSCRAPER : PILLEZ LE WEB AVEC MODÉRATION !

Signaler
Messages postés
483
Date d'inscription
mardi 10 juillet 2001
Statut
Membre
Dernière intervention
12 juillet 2006
-
Messages postés
5
Date d'inscription
jeudi 25 septembre 2003
Statut
Membre
Dernière intervention
25 mars 2004
-
Cette discussion concerne un article du site. Pour la consulter dans son contexte d'origine, cliquez sur le lien ci-dessous.

https://codes-sources.commentcamarche.net/source/2946-webscraper-pillez-le-web-avec-moderation

Messages postés
5
Date d'inscription
jeudi 25 septembre 2003
Statut
Membre
Dernière intervention
25 mars 2004

ok merci quand même ;)
par contre, ça pourrait intéresser pas mal de personnes un ptit exemple avec le moteur Gecko, vu le nombre de messages concertant IeWebbrowser :)

@+
Messages postés
1221
Date d'inscription
jeudi 23 août 2001
Statut
Membre
Dernière intervention
9 septembre 2018

Ben c'est que je n'ai plus bcp de tps en ce moment, et en plus, je connais quelqu'un qui avait un robot fonctionnant avec les technologies linux (mozilla et Gecko) qui ne marchent plus sur imdb, car imdb est parvenu à bloquer ses requetes automatiques ; par contre, mon webscraper fonctionne tjrs sur imdb, donc j'ai pas trop envie de changer de techno.
Messages postés
5
Date d'inscription
jeudi 25 septembre 2003
Statut
Membre
Dernière intervention
25 mars 2004

J'ai fait un programme du même genre (récupération d'un texte dans une page web) avec le webbrowser, et j'essaye de l'accélérer.

Sur ce site, on trouve un activeX Mozilla qui utilise strictement les mêmes méthodes et propriétés que IEWebbrowser, mais qui fonctionne avec le moteur de rendu Gecko bien plus rapide.
http://www.iol.ie/~locka/mozilla/mozilla.htm

Personellement, je bloque sur la récupération du HTMLDocument mais il semble que ça soit possible.
Comme tu semble plus expérimenté, tu pourrais certainement arriver à convertir ta source avec l'autre ActiveX.
Tout le monde pourrait en profiter :D !!! ;)
Messages postés
1221
Date d'inscription
jeudi 23 août 2001
Statut
Membre
Dernière intervention
9 septembre 2018

Attention : on m'a signalé récemment qu'IMDB n'acceptait pas les robots sur son site, c'est proscrit dans sa charte d'utilisation. Et c'est normal, car si tout le monde faisait la même chose, les performances du site pourraient en pâtir !
Donc évitez SVP les robots du type WebScraper là où ils ne sont pas les bienvenus !
Afficher les 7 commentaires