Lecture du contenu d'un fichier PDF

Oeil_de_taupe 150 Messages postés samedi 31 janvier 2004Date d'inscription 16 février 2009 Dernière intervention - 16 févr. 2009 à 01:48 - Dernière réponse : naciro01 1 Messages postés lundi 15 décembre 2008Date d'inscription 14 mars 2009 Dernière intervention
- 14 mars 2009 à 01:24
Bonjour,

Je désire lire le contenu d'un document PDF (extraire le texte et le formatage utilisé). J'ai trouvé l'API PDFBox qui me semble très complet. Il permet d'extraire le texte contenu dans un PDF mais je n'ai pas trouvé le moyen d'extraire également le formatage.

En faisant des recheches je me suis rendu compte de la complexité du format PDF (format que je ne faisais qu'utiliser auparavant). J'ai par exemple appris l'utilisation du "COS Object Tree". PDFBox permet justement de l'explorer. J'imagine que cet arbre contient ce que je veux.

Est-ce que quelqu'un a déjà lu un document PDF à l'aide d'une API et pourrait m'indiquer une piste à suivre?

Merci d'avance si vous avez des exemples de code ou des tuyaux qui me simplifieraient la vie.
Afficher la suite 

1 réponse

Répondre au sujet
naciro01 1 Messages postés lundi 15 décembre 2008Date d'inscription 14 mars 2009 Dernière intervention - 14 mars 2009 à 01:24
0
Utile
 moi aussi javé le meme bleme.............
Commenter la réponse de naciro01

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.