Liens internet en profondeur

jorion7 Messages postés 13 Date d'inscription mardi 4 février 2003 Statut Membre Dernière intervention 27 novembre 2007 - 4 juil. 2006 à 15:42
katsankat Messages postés 571 Date d'inscription vendredi 30 décembre 2005 Statut Membre Dernière intervention 12 juillet 2012 - 6 juil. 2006 à 11:47
Bonjour à tous,
Voici mon problème:
Je suis en train de développer une appli en VB6 qui aura pour but de scanner, à patir d'une page definie, tous les liens, d'ouvrir chaque liens trouver, de rescanner les liens se trouvant sur chacune des pages nouvellement ouvertes etc... sur une profondeur definie.
Est-ce possible? et, si oui, qui pourrait m'aider à élaborer cet algo?
Merci d'avance pour vos réponses

4 réponses

OneHacker Messages postés 1447 Date d'inscription jeudi 2 novembre 2000 Statut Membre Dernière intervention 23 septembre 2007 2
4 juil. 2006 à 19:43
J'ai fait cela mais avec VB.Net sachant que les pages dynamques(ASP PHP) n'affiche pas le réel contenu, pour cela je récupère une Page HTML de base et à chaque lien [... ] Je refais la même chose récursivement, c infini donc j'ai mis un bouton Start et Stop et le tout éxécuter par un thread pour pas faire ramer le programme. Prochainement il y aura une optin Integer pemettant de définir la profondeur maximale.

Redman
0
katsankat Messages postés 571 Date d'inscription vendredi 30 décembre 2005 Statut Membre Dernière intervention 12 juillet 2012 3
6 juil. 2006 à 09:30
Salut :)

C'est un projet intéressant. Possible? Oui. Aide? Effectivement il faut traiter 3 problèmes de front, ça peut impressionner.


Partant d'une seule URL, le prog va

1. Télécharger la page pour obtenir sa source (inet semble le plus aisé)

2. parser le string HTML (hyper-facile)

3. pour remplir une liste de liens (un tableau d'URLs)

4. Et ainsi de suite pour toutes les URLs du tableau jusqu'à ce que  la profondeur soit atteinte.


D'ou, idéalement chaque page se présente sous la forme d'une classe.


 Propriétés publiques:

   - URL (string)

   - Liste de liens de cette page (tableau de strings)

 Propriétés privées:

   - Source (string)

 Méthodes privées:

   - Télécharger_Source(URL as string) (retourne un Long)

   - Extraire_Liens(source as string) (retourne un int: le nb de liens)


Si tu avais une équipe de 3 personnes, elles auraient les tâches suivante:

   a) créer le squelette de la classe

   b) écrire fonction pour télécharger la source (couche réseau)

   c) écrire fonction pour parser le HTML et remplir le tableau

   d) créer programme de test


Je verrais bien un Treeview pour présenter l' arbre.


A priori Jorion tu serais le plus à l' aise pour a,b,c, ou d ?
0
OneHacker Messages postés 1447 Date d'inscription jeudi 2 novembre 2000 Statut Membre Dernière intervention 23 septembre 2007 2
6 juil. 2006 à 11:36
[auteurdetail.aspx?ID=656858 katsankat]
qu'apelle tu parser ?

Redman
0
katsankat Messages postés 571 Date d'inscription vendredi 30 décembre 2005 Statut Membre Dernière intervention 12 juillet 2012 3
6 juil. 2006 à 11:47
Analyser, disséquer, traiter.
0
Rejoignez-nous