SAVOIR SI LE VISITEUR EST UN ROBOT D'UN MOTEUR DE RECHERCHE

cs_Astalavista
Messages postés
192
Date d'inscription
lundi 24 décembre 2001
Statut
Membre
Dernière intervention
3 février 2010
- 29 avril 2007 à 02:48
Clad49
Messages postés
265
Date d'inscription
dimanche 3 août 2003
Statut
Membre
Dernière intervention
29 mars 2010
- 28 mars 2010 à 23:32
Cette discussion concerne un article du site. Pour la consulter dans son contexte d'origine, cliquez sur le lien ci-dessous.

https://codes-sources.commentcamarche.net/source/42493-savoir-si-le-visiteur-est-un-robot-d-un-moteur-de-recherche

Clad49
Messages postés
265
Date d'inscription
dimanche 3 août 2003
Statut
Membre
Dernière intervention
29 mars 2010

28 mars 2010 à 23:32
Les dernières ip crawltrack :

$IPtab[] = '204.236.235.245'; //Alexa

$IPtab[] = '66.235.112.'; //Ask Jeeves/Teoma
$IPtab[] = '66.235.124.';

$IPtab[] = '220.181.'; //Baiduspider
$IPtab[] = '61.135.168.';

$IPtab[] = '208.115.111.242'; //DotBot

$IPtab[] = '88.131.106.'; //Entireweb

$IPtab[] = '193.47.80.36'; //Exabot

$IPtab[] = '66.249.71.75'; //Google-Adsense

$IPtab[] = '212.117.183.169'; //GoogleBot

$IPtab[] = '207.46.'; //MSN Bot
$IPtab[] = '65.55.';

$IPtab[] = '66.219.58.42'; //Metadata Labs

$IPtab[] = '38.99.97.118'; //ScoutJet

$IPtab[] = '67.195.110.163'; //Slurp Inktomi (Yahoo)
$IPtab[] = '72.30.161.225';

$IPtab[] = '81.19.66.89'; //StackRambler

$IPtab[] = '67.218.116.162'; //Twiceler

$IPtab[] = '193.252.118.'; //VoilaBot
$IPtab[] = '69.41.173.145';
$IPtab[] = '81.52.143.';

$IPtab[] = '77.88.31.247'; //Yandex

$IPtab[] = '119.235.237.'; //Yeti
cs_Anto1982
Messages postés
4
Date d'inscription
jeudi 17 janvier 2008
Statut
Membre
Dernière intervention
31 janvier 2009

10 oct. 2008 à 12:20
Ne peut-on pas imaginer un "piège" à robots. J'en ai codé un (le code est en ligne sur le site).
Le principe est de récupérer l'IP sur une page cachée (lien gif transparent dans le coin de la page)

=> Aucun humain ne visitera cette page (donc on a une liste des robots).

Ensuite, pour savoir si le robot est "clean" j'ai imaginé un piège en utilisant 2 pages dissimulées dont une seule est interdite dans le fichier robots.txt.

Dans le cas ou aucune de ces 2 pages n'est visitée et que le nombre de requetes provenant d'une meme IP dans un espace de temps donné est superieur x, j'estime qu'il s'agit d'un mauvais robot... (dans ce cas, je compte le nombre de requetes sur 5mn par exemple, si le nombre est superieur a 500, il ne s'agit pas d'un humain... si le robot ne visite pas la page dissimulée autorisée, il s'agit donc d'un mauvais robot)

Si le robot visite une page interdite par mon fichier robot, il s'agit également d'un mauvais robot....

Le seul probleme c'est que si un "mauvais" robot se comporte comme un "bon" robot (qu'il suit les directives du fichier robots.txt), je ne peux pas le détecter...
sy125gi
Messages postés
5
Date d'inscription
mardi 2 janvier 2007
Statut
Membre
Dernière intervention
3 juin 2009

10 juil. 2007 à 19:20
Et en fait, il faut metre ce fichier à quel endroit du site?
kiki67100
Messages postés
313
Date d'inscription
samedi 6 mai 2006
Statut
Membre
Dernière intervention
10 août 2013
1
10 juil. 2007 à 15:50
Garde les ips c'est plus sûr que les user agent
Simpa la source ;)

(tu aurais pus mettre tout les ips dans un fichier aussi )

@++
MadM@tt
Messages postés
2167
Date d'inscription
mardi 11 novembre 2003
Statut
Membre
Dernière intervention
16 juillet 2009
1
29 juin 2007 à 15:12
Merci pour ta précision, c'est mis à jour.

Et merci pour ta liste d'IP
Afficher les 38 commentaires