Lecture du contenu d'un fichier PDF

Signaler
Messages postés
150
Date d'inscription
samedi 31 janvier 2004
Statut
Membre
Dernière intervention
16 février 2009
-
Messages postés
1
Date d'inscription
lundi 15 décembre 2008
Statut
Membre
Dernière intervention
14 mars 2009
-
Bonjour,

Je désire lire le contenu d'un document PDF (extraire le texte et le formatage utilisé). J'ai trouvé l'API PDFBox qui me semble très complet. Il permet d'extraire le texte contenu dans un PDF mais je n'ai pas trouvé le moyen d'extraire également le formatage.

En faisant des recheches je me suis rendu compte de la complexité du format PDF (format que je ne faisais qu'utiliser auparavant). J'ai par exemple appris l'utilisation du "COS Object Tree". PDFBox permet justement de l'explorer. J'imagine que cet arbre contient ce que je veux.

Est-ce que quelqu'un a déjà lu un document PDF à l'aide d'une API et pourrait m'indiquer une piste à suivre?

Merci d'avance si vous avez des exemples de code ou des tuyaux qui me simplifieraient la vie.

1 réponse

Messages postés
1
Date d'inscription
lundi 15 décembre 2008
Statut
Membre
Dernière intervention
14 mars 2009

 moi aussi javé le meme bleme.............