ebe_tic
Messages postés15Date d'inscriptionjeudi 4 décembre 2003StatutMembreDernière intervention14 mars 2006
-
14 mars 2006 à 14:44
fireche
Messages postés1Date d'inscriptionjeudi 30 septembre 2010StatutMembreDernière intervention19 décembre 2010
-
19 déc. 2010 à 15:30
Comment extraire le texte contenu dans un fichier PDF ?
J'ai des fichiers d'annonces en PDF. Ces annonces sont composées de texte.
Pour les publier sur Internet, je dois les passer en XML.
J'ai un traitement qui me permet de qualifier les TXT en XML.
Avec Acrobat je peut faire un enregistrer sous txt,
avec Reader, je peux faire un copier coller du texte
Mais comme il y a un grand nombre de fichiers à traiter. Il faudrait que je trouve un moyen d'automatiser l'extraction du texte.
Y aurait-il une âme charitable qui voudrait bien me mettre sur la voie ?
PS. je travaille en VB6
fireche
Messages postés1Date d'inscriptionjeudi 30 septembre 2010StatutMembreDernière intervention19 décembre 2010 19 déc. 2010 à 15:30
si tu a un document en PDF il te faut un scanner et une application OCR (reconnaissance des caractères) scanner les pages bien sur avec OCR automatiquement ouvert dans word et rendre le texte vivant.
Normalement sa va marché et bonne chance.