Recheche full-text de PDF

skmancuso Messages postés 53 Date d'inscription lundi 23 juin 2003 Statut Membre Dernière intervention 11 janvier 2007 - 11 janv. 2007 à 12:02
skmancuso Messages postés 53 Date d'inscription lundi 23 juin 2003 Statut Membre Dernière intervention 11 janvier 2007 - 11 janv. 2007 à 14:23
Bonjour,

Voilà, j'ai un problème de conception assez important et je souhaiterais l'avis et les idées d'autres personnes. Je suis en train de travailler sur un projet de GED(Gestion Electronique des Documents). Le projet est le suivant:

- On souhaite rechercher en full-text des mots à la facon de google dans des PDF.

Je sais que lire directement des PDF n'est pas évident. Par conséquent, je sais qu'on peut les extraire en txt. Le problème est que je risque d'avoir de la redondance d'information inutile par le fait d'avoir une fois le pdf et une fois le txt. J'ai aussi imaginer faire de l'indexation full-text dans la base mysql, mais là aussi on a redondance de l'informaiton entre le fichier PDF et le contenu de la base qui contiendra les texte du PDF.

Je suis obligé de conservé les PDF car leur mise en page est relativement importante et doit être conservée.

L'idée serait d'avoir les pdf dans un répertoire et créer une base de données créant une sorte de dictionnaire de référencement/indexation des PDF lié à la position du PDF concerné

Il s'agit aussi d'éviter d'utiliser les métatag PDF trop restrictif et la transformation en fichier TXT. Je sais aussi que google est capable de le faire. Le tout est de savoir comment......(chose que je ne comprend pas)

Je sais que ce projet n'est pas évident mais la moindre piste est intéressante, car il s'agit d'une demande que je trouve sur beaucoup de forum.

J'attend vos idées avec impatience
Merci d'avance

Skmancuso

2 réponses

cs_Springer Messages postés 85 Date d'inscription lundi 14 juillet 2003 Statut Membre Dernière intervention 14 mars 2007 1
11 janv. 2007 à 12:51
bonjour,
d'après mes souvenirs tu peux lire dans un fichier pdf directement à partir du php, va faire un tour sur cette page.http://www.nexen.net/index.php?option=com_nexen_v2&Itemid=232&&lang=FR&nexen_url_type=intern&nexen_path=docs%2Fphp%2Fannotee%2Fref.pdf.php%3Flien%3Dpdf

cordialement
0
skmancuso Messages postés 53 Date d'inscription lundi 23 juin 2003 Statut Membre Dernière intervention 11 janvier 2007
11 janv. 2007 à 14:23
Hello,

Merci pour ta réponse,

Il y a quelque  chose que je n'ai pas compris avec pdflib, est-il payant? Sur le site il parle de licences.....

J'utilise pour ma part XPDF qui permet de convertir un pdf en txt en ligne de commande pour le lire car il me semble qu'avec PDI, tu ne peux faire que des ajout ou une extraction mais pas récupérer le texte dans une variable ou du moins je n'ai pas compris comment le faire....(si quelqu'un a une idée?)

Pour l'indexation des mots se trouvant dans le PDF, je n'ai pas encore trouvé de solution si quelqu'un en a une, je suis toutes ouïes.

A bientôt

skmancuso
0
Rejoignez-nous