Oeil_de_taupe
Messages postés150Date d'inscriptionsamedi 31 janvier 2004StatutMembreDernière intervention16 février 2009
-
16 févr. 2009 à 01:48
naciro01
Messages postés1Date d'inscriptionlundi 15 décembre 2008StatutMembreDernière intervention14 mars 2009
-
14 mars 2009 à 01:24
Bonjour,
Je désire lire le contenu d'un document PDF (extraire le texte et le formatage utilisé). J'ai trouvé l'API PDFBox qui me semble très complet. Il permet d'extraire le texte contenu dans un PDF mais je n'ai pas trouvé le moyen d'extraire également le formatage.
En faisant des recheches je me suis rendu compte de la complexité du format PDF (format que je ne faisais qu'utiliser auparavant). J'ai par exemple appris l'utilisation du "COS Object Tree". PDFBox permet justement de l'explorer. J'imagine que cet arbre contient ce que je veux.
Est-ce que quelqu'un a déjà lu un document PDF à l'aide d'une API et pourrait m'indiquer une piste à suivre?
Merci d'avance si vous avez des exemples de code ou des tuyaux qui me simplifieraient la vie.