EXTRACTION DU CONTENU D'UN DOCUMENT PDF (PDF-1.4)

malik7934 1162 Messages postés mardi 9 septembre 2003Date d'inscription 15 août 2009 Dernière intervention - 30 déc. 2007 à 20:08 - Dernière réponse :  pa27
- 25 juin 2017 à 12:23
Commentaires sur un tutoriel Créer une discussion Signaler Répondre
Cette discussion concerne un article du site. Pour la consulter dans son contexte d'origine, cliquez sur le lien ci-dessous.

http://codes-sources.commentcamarche.net/faq/799-extraction-du-contenu-d-un-document-pdf-pdf-1-4

Afficher la suite 
mamro2ter 2 Messages postés jeudi 18 janvier 2007Date d'inscription 4 juillet 2008 Dernière intervention - 4 juil. 2008 à 12:48
bonjour,
ce code est intéressant pour moi pour faire des recherches sur un document.
Par contre après le test le contenu ne s'affiche pas, juste la premiere partie.
Voici le contenu de mon fichier:
test.txt
page de test pdf. le test a réussi.
Page
Voici le resultat:
Date de création: Monday, 07 April 2008 11:11:45
Date de modification: Monday, 07 April 2008 11:11:45
Titre du fichier: lien.txt - Bloc-notes
Création du fichier: PDFCreator Version 0.9.1
Auteur: jeanmardelbv@yahoo.fr
Mots clés: test
Sujet: test du pdf

Contenu textuel:
Les expressions régulières de la fonction extractText ne sont pas correcte (pb de mise en ligne ?)

voici la fonction corrigée :

function extractText($content){
$obj = array();
$ret = array();
$mots = array();

preg_match_all('/\[([^]]+)]TJ/', $content, $obj);

for ($i=0;$i<count($obj[0])-1;$i++){
preg_match_all('/\((.)\)/', $obj[1][$i], $mots[$i]);
$ret[] = implode('',$mots[$i][1]);
}

$ret = implode(' ',$ret);

return $ret;
}
cs_patrick 32 Messages postés vendredi 19 mai 2000Date d'inscription 21 juillet 2015 Dernière intervention - 5 janv. 2015 à 15:53
autres petites corrections sur la fonction getPDFText() :

function getPDFText($content){
$data = "";
$objects = getPDFContent($content,'obj','endobj');
if (count($objects)>0) foreach ($objects as $obj) {
$streans = getPDFContent($obj,'stream','endstream');
if (count($streans)>0) foreach($streans as $element) {
$data .= @gzuncompress($element); // métode "gros boeuf", on ne test pas s'il s'agit d'un objet ayant l'attribut /FlateDecode !!!
}
}
return extractText($data);
}
Comment puis-je associer un code à un fichier PDF ??
Commenter la réponse de malik7934

22 réponses

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.