Parsing d'une table HTML identifiée

Soyez le premier à donner votre avis sur cette source.

Vue 293 fois - Téléchargée 30 fois

Description

Vous voulez extraire les informations issues d'un tableau d'une page HTML en ligne
pour pouvoir les exploiter en Python ? Vous tombez à pic ! Grâce à ce programme,
obtenez en une ligne de code vos informations dans un tableau.

Vous aurez besoin : de l'adresse URL en ligne du tableau visé et de son identifiant
unique. Dans le cas où vous n'auriez pas l'identifiant unique, vous pourrez choisir parmi
les tableaux trouvés par le programme directement en mode console.

Vous obtenez en sortie un tableau à deux dimensions dont le premier élément est un
tableau qui contient le nom des colonnes. Chaque élément ensuite est une ligne de ce
tableau sous forme de valeur.

TODO :
Ajouter d'autres formats de sortie (JSON, CSV, JPG)
Améliorer la rapidité d'exécution
Choisir les colonnes à extraire
Mettre en place des filtres

Release note :
v1.1 06/02/2019 :
- correction d'un bug où dans le résultat de sortie peut se trouver un tableau vide (dans le cas où des th sont présents dans la table)
- ajout de commentaires pour la maintenabilité du code
- ajout de la fonctionnalité : choisir une table non identifiée parmi une liste des tables disponibles

Commentaire :
Dans cette nouvelle version, l'identifiant de la table est facultatif. Dans le cas où il est omis
(seul URL est renseigné), le programme va chercher toutes les tables sur la page et permet
à l'utilisateur de choisir en mode console la table qu'il souhaite extraire. Il disposera pour cela
de la liste des tables numérotées, de leur entête de colonnes si disponible, du nombre de lignes du tableau
s'il est valide et de sa validité.

La validité vérifie si le nombre d'information par ligne est identique pour chaque ligne.
Le cas échéant, le tableau n'est pas valide. Vous pouvez tout de même tenter son extraction
mais les données risquent d'être mal ordonéees (notamment dans le cas où une colonne intermédiaire est omise).

v1.0 31/01/2019 :
- première version du programme

Codes Sources

A voir également

Ajouter un commentaire

Commentaires

Commenter la réponse de Jithel

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.