Lecture du contenu d'un fichier PDF

Oeil_de_taupe Messages postés 150 Date d'inscription samedi 31 janvier 2004 Statut Membre Dernière intervention 16 février 2009 - 16 févr. 2009 à 01:48
naciro01 Messages postés 1 Date d'inscription lundi 15 décembre 2008 Statut Membre Dernière intervention 14 mars 2009 - 14 mars 2009 à 01:24
Bonjour,

Je désire lire le contenu d'un document PDF (extraire le texte et le formatage utilisé). J'ai trouvé l'API PDFBox qui me semble très complet. Il permet d'extraire le texte contenu dans un PDF mais je n'ai pas trouvé le moyen d'extraire également le formatage.

En faisant des recheches je me suis rendu compte de la complexité du format PDF (format que je ne faisais qu'utiliser auparavant). J'ai par exemple appris l'utilisation du "COS Object Tree". PDFBox permet justement de l'explorer. J'imagine que cet arbre contient ce que je veux.

Est-ce que quelqu'un a déjà lu un document PDF à l'aide d'une API et pourrait m'indiquer une piste à suivre?

Merci d'avance si vous avez des exemples de code ou des tuyaux qui me simplifieraient la vie.

1 réponse

naciro01 Messages postés 1 Date d'inscription lundi 15 décembre 2008 Statut Membre Dernière intervention 14 mars 2009
14 mars 2009 à 01:24
 moi aussi javé le meme bleme.............
0
Rejoignez-nous