Requètes http via proxy : recuperer la source html d'une page web


Contenu du snippet

Un petit code permettant de recuperer ce que renvoie une requete web, et donc de filtrer par exemple le contenu des urls qui semblent dangereuse, ou encore d'y recuperer toutes les urls contenues (esquisse d'un aspirateur web)... ceci en passant si besoin il y a par un proxy.

Ce code n'est qu'un tout petit exemple basique, et les objets webrequests comportent enormement d'autres utilités (entre autres les modifications des headers sur lesquels je reviendrais surement dans une prochaine source)

Source / Exemple :


Function Get_request(ByVal url As String, Optional ByVal proxy As String = Nothing, Optional ByVal proxyport As Integer = Nothing) As String
        Dim readstr As IO.StreamReader 'on crée un objet streamreader
        Try

            If proxy <> Nothing And proxyport <> Nothing Then 'on execute ceci que si les deux arguments optionels ont été passés (proxy et port)
                Dim hproxy As WebProxy 'on crée l'objet proxy
                hproxy = New WebProxy(proxy, proxyport) 'on defini hproxy avec les valeurs données
                GlobalProxySelection.Select = hproxy 'on applique le proxy
            End If

            Dim hwebrequest As System.Net.WebRequest = System.Net.WebRequest.Create(url) 'on crée la requete web
            Dim hwebresponse As System.Net.WebResponse = hwebrequest.GetResponse 'on crée un objet de reponse a notre requete
            readstr = New IO.StreamReader(hwebresponse.GetResponseStream) 'on redefini notre streamreader avec la reponse à la requete en argument
            Return readstr.ReadToEnd() 'on renvoie l'ensemble du resultat
            readstr.Close() 'on ferme l'objet

        Catch ex As Exception

            Return ex.Message.ToString ' en cas d'erreur, on renvoie la description de l'erreur
            readstr.Close()

        End Try

    End Function

'en admettant que les textbox existent sur votre form (je vous laisse recupérer vous meme les noms), dans un bouton ou autre :
'htmltxt est un richtextbox, pour eviter une erreur si le fichier distant est trop gros

 If proxytxt.Text <> "" And porttxt.Text <> "" And urltxt.Text <> "" Then htmltxt.Text = Getrequest(urltxt.Text, proxytxt.Text, porttxt.Text)
        If urltxt.Text <> "" Then htmltxt.Text = Getrequest(urltxt.Text)

Conclusion :


C'est tres simple, c'est pratique dans certains cas et ca pourra servir de base à un essai sur les requetes web... j'y reviendrais surement :)

Les commentaires sont les bienvenus.

A voir également