Bloquer les aspirateurs de sites

Soyez le premier à donner votre avis sur cette source.

Snippet vu 11 418 fois - Téléchargée 28 fois

Contenu du snippet

Le principe est de créer, au début de chaque pages, un lien invisible qui réfère à une page. Cette page bannit l'IP du client si il l'affiche.

Comme les aspirateurs de sites tentent d'afficher toutes les pages qu'il voit en lien, il tombera dans le piège.

Un exemple?
tentez d'aspirer mon site : www.filesdepot.com

Source / Exemple :


Vous devez avoir, à la racine de votre site un dossier "webhoover" lui même se trouvant dans un dossier "incl".

1. Premièrement , créez une page "webhoover.php"

//début de webhoover.php
<?
$d=date("YmdHi")+5; // +5 > bannis 5min $fichier="incl/webhoover/".$REMOTE_ADDR.".txt";
$fp2=fopen($fichier,"w+");
fputs($fp2,($d));
fclose($fp2);
?>
<script>
alert('Vous semblez tenter d\'aspirer le site. Votre IP est bloquée pour 5 minutes')
</script>
//fin de webhoover.php

2. Créez une seconde page "scripts.php", se trouvant dans le dossier "incl":

//début de scripts.php
<?
if(file_exists("incl/webhoover/".$REMOTE_ADDR.".txt")){
$fp=fopen("incl/webhoover/".$REMOTE_ADDR.".txt","r");
$n=fgets($fp,255);
fclose($fp);
$d=date("YmdHi");
if($n<=$d){
 unlink("incl/webhoover/".$REMOTE_ADDR.".txt");
}else{
 echo "<script>alert('Votre IP est bloquée pour 5 minutes car vous avez tenté d\'aspirer le site');opener=self;self.close()</script>";
 exit;
}
}
?>
<a href="webhoover.php"><img border=0 src="img/webhoover.php" width=0 height=0></a>
//fin de scripts.php

Remarquez le lien dans scripts.php. Il s'agit d'une image trop petite pour être cliquée, mais l'aspirateur de site la prendra pour un lien. Et comme ce lien est en début de page, il passera par lui en premier.

Il est impératif que la page scripts.php soit appelée au début de chaque pages pour vérifier si l'ip n,est pas bannie.

au début de chaque pages que vous voulez protéger:
<?include("incl/scripts.php")?>

Conclusion :


Voila principe simple mais efficace.

L'aspirateur téléchargera toutes les pages, mais elle ne contiendront pas autre chose qu'un message "Votre IP a été bloquée..."

Bon la fonction de calcul du 5 minutes est trop simple.
elle ne calcul pas l'avancement de jours à minuit et etc mais bon...

A voir également

Ajouter un commentaire

Commentaires

Messages postés
146
Date d'inscription
vendredi 28 mai 2010
Statut
Membre
Dernière intervention
21 juillet 2013
3
Note: J'ai essayé avec HTTrack: il ne passe pas.

Autres astuces:
• Cryptez vos fichiers sensibles (config, ...)
• Bloquer l'accès direct aux fichiers sensibles:

exemple:

<Files *.inc*>
Order deny,allow
Deny from all
</Files>
Messages postés
146
Date d'inscription
vendredi 28 mai 2010
Statut
Membre
Dernière intervention
21 juillet 2013
3
Et le htaccess vous avez essayé ?!

###FILTRE CONTRE CERTAINS ROBOTS DES PIRATES
RewriteEngine On
## EXCEPTION: TOUS LES ROBOTS MEMES ANONYMES OU BANNIS PEUVENT ACCEDER A CES FICHIERS
RewriteCond %{REQUEST_URI} !^/robots.txt
RewriteCond %{REQUEST_URI} !^/sitemap.xml
##
RewriteCond %{HTTP_USER_AGENT} ^-?$ [OR] ## ANONYMES
RewriteCond %{HTTP_USER_AGENT} ^[bcdfghjklmnpqrstvwxz\ ]{8,}|^[0-9a-z]{15,}|^[0-9A-Za-z]{19,}|^[A-Za-z]{3,}\ [a-z]{4,}\ [a-z]{4,} [OR] ## CEUX QUI INVENTENT DES NOMS AU HASARD
RewriteCond %{HTTP_USER_AGENT} ^<sc|<\?|^adwords|@nonymouse|Advanced\ Email\ Extractor|almaden|anonymous|Art-Online|autoemailspider|blogsearchbot-martin|CherryPicker|compatible\ \;|Crescent\ Internet\ ToolPack|Digger|DirectUpdate|Download\ Accelerator|^eCatch|echo\ extense|EmailCollector|EmailWolf|Extractor|flashget|frontpage|Go!Zilla|grub\ crawler|HTTPConnect|httplib|HttpProxy|HTTP\ agent|HTTrack|^ia_archive|IDBot|id-search|Indy\ Library|^Internet\ Explorer|^IPiumBot|Jakarta\ Commons|^Kapere|Microsoft\ Data|Microsoft\ URL|^minibot\(NaverRobot\)|^Moozilla|^Mozilla$|^MSIE|MJ12bot|Movable\ Type|NICErsPRO|^NPBot|Nutch|Nutscrape/|^Offline\ Explorer|^Offline\ Navigator|OmniExplorer|^Program\ Shareware|psycheclone|PussyCat|PycURL|python|QuepasaCreep|SiteMapper|Star\ Downloader|sucker|SurveyBot|Teleport\ Pro|Telesoft|TrackBack|Turing|TurnitinBot|^user|^User-Agent:\ |^User\ Agent:\ |vobsub|webbandit|WebCapture|webcollage|WebCopier|WebDAV|WebEmailExtractor|WebReaper|WEBsaver|WebStripper|WebZIP|widows|Wysigot|Zeus|Zeus.*Webster [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} ^curl|^Fetch\ API\ Request|GT\:\:WWW|^HTTP\:\:Lite|httplib|^Java/1.|^Java\ 1.|^LWP|libWeb|libwww|^PEAR|PECL\:\:HTTP|PHPCrawl|python|Rsync|Snoopy|^URI\:\:Fetch|WebDAV|^Wget [NC] ## BIBLIOTHEQUES / CLASSES HTTP DONT ON NE VEUT PAS. ATTENTION, CELA PEUT BLOQUER CERTAINES FONCTIONS DE VOTRE CMS. NE PAS TOUT EFFACER, MAIS CHERCHEZ LE NOM DE LA CLASSE HTTP CONCERNEE (DEMANDEZ AUX DEVELOPPEURS DE VOTRE CMS). CETTE LISTE BLOQUE 80% DES ROBOTS SPAMMEURS. IL FAUT LA CONSERVER.
RewriteRule (.*) - [F]

Source: http://ralph.davidovits.net/internet/se-proteger-des-pirates-et-hackers.html
Messages postés
59
Date d'inscription
mardi 28 novembre 2006
Statut
Membre
Dernière intervention
28 avril 2010
7
merci pour ce code mais c'est pas gentil de faire perdre du temp au gents pour installer un code qu ne fonctionne pas aller a++
Messages postés
6
Date d'inscription
samedi 11 juin 2005
Statut
Membre
Dernière intervention
2 juillet 2006

facile a trouver le lien qui bannie les ip
http://www.filesdepot.com/filesdepot.php

jai mis en surbrillance
ctrl a

jai été au dessu du site et jai trouver le lien caché

bye
Messages postés
1
Date d'inscription
samedi 5 juin 2004
Statut
Membre
Dernière intervention
7 juin 2004

bon et bien ton site est aspiré au premier essai .
Dommage l'idée etait bonne.
A mon avis tu devrais cacher un lien dans ta page html et si une personne ouvre ce lien tu blacklist l'ip car ce lien ne pourrait pas etre ouvert normalement. au moins tu auras empeché l'aspiration du morceau du site.
Je c deja que c possible de bien proteger les images mais le site c plus chaud.
Afficher les 22 commentaires

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.