Java : Web spider - web crawler

Description

C'est une version simple en mode console d'un robot web : un spider ou crawler.
Les spiders ou crawler sont des robots qui parcourent le web pour en connaitre sa structure et éventuellement son contenu.
Ce sont les petites bêtes qu'utilisent les moteurs et parfois aussi les meta moteur de recherche.

Pour faire fonctionner celui la, il faudra installer la librairie htmlparser qui se trouve à l'adresse : http://htmlparser.sourceforge.net/

Conclusion :

Utilisation :

- Ecrire l'url de base dans la variable URLSite
- Donner le nombre maximum d'url à "visiter" dans la variable maxURLtoVisit
- Rajouter éventuellement des extensions de fichiers dans le vecteur allowedExtensions si le site cible les utilise
- Positionner les différentes options du programme (leur nom est suffisement explicite)
A noter le booleen stayInDomain permet au spider de ne pas "déborder" de son site cible.
Si il est positionné à false, le spider ira se balader un peu n'importe où sur le web, mais c'est aussi interressant comme comportement.
- Compiler et lancer le programme

Liste des bugs : probablement...J'ai pas tout tester, à vous de jouer avec. Je reste à l'écoute pour les corrections (constructives s'entend, si c'est pour me dire il manque une virgule, je m'en peint le nombril avec le pinceau de l'indifférence... :o)

Télécharger le projet

Codes Sources

voir Télécharger
Spider.java

A voir également

Web spider - web crawler
Modele de site web - Conseils pratiques -PHP
Web sso - Forum PHP
Service web - Conseils pratiques -Visual Basic / VB.NET
Modèle devis site web ✓ - Forum PHP
Application web gestion commerciale ✓ - Forum PHP

S'inscrire maintenant

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.

Web spider - web crawler

Description

Conclusion :

Codes Sources

A voir également

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Du même auteur (cs_AlexN)

Geolocalisateur

Chunkedxml, lire du xml par morceau

Explorateur d'images

Analyseur xml générique et programmation refléxive

Redirection d'url et transmission de cookies

Conclusion :

A voir également

Vous n'êtes pas encore membre ? inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Du même auteur (cs_AlexN)

Geolocalisateur

Chunkedxml, lire du xml par morceau

Explorateur d'images

Analyseur xml générique et programmation refléxive

Redirection d'url et transmission de cookies

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !