recheche full-text de PDF

Question

Bonjour,

Voilà, j'ai un problème de conception assez important et je souhaiterais l'avis et les idées d'autres personnes. Je suis en train de travailler sur un projet de GED(Gestion Electronique des Documents). Le projet est le suivant:

- On souhaite rechercher en full-text des mots à la facon de google dans des PDF.

Je sais que lire directement des PDF n'est pas évident. Par conséquent, je sais qu'on peut les extraire en txt. Le problème est que je risque d'avoir de la redondance d'information inutile par le fait d'avoir une fois le pdf et une fois le txt. J'ai aussi imaginer faire de l'indexation full-text dans la base mysql, mais là aussi on a redondance de l'informaiton entre le fichier PDF et le contenu de la base qui contiendra les texte du PDF. 

Je suis obligé de conservé les PDF car leur mise en page est relativement importante et doit être conservée.

L'idée serait d'avoir les pdf dans un répertoire et créer une base de données créant une sorte de dictionnaire de référencement/indexation des PDF lié à la position du PDF concerné

Il s'agit aussi d'éviter d'utiliser les métatag PDF trop restrictif et la transformation en fichier TXT. Je sais aussi que google est capable de le faire. Le tout est de savoir comment......(chose que je ne comprend pas)

Je sais que ce projet n'est pas évident mais la moindre piste est intéressante, car il s'agit d'une demande que je trouve sur beaucoup de forum.

J'attend vos idées avec impatience
Merci d'avance

Skmancuso

cs_Springer · Answer

bonjour,
d'après mes souvenirs tu peux lire dans un fichier pdf directement à partir du php, va faire un tour sur cette page.http://www.nexen.net/index.php?option=com_nexen_v2&Itemid=232&&lang=FR&nexen_url_type=intern&nexen_path=docs%2Fphp%2Fannotee%2Fref.pdf.php%3Flien%3Dpdf

cordialement

skmancuso · Answer

Hello,

Merci pour ta réponse,

Il y a quelque  chose que je n'ai pas compris avec pdflib, est-il payant? Sur le site il parle de licences.....

J'utilise pour ma part XPDF qui permet de convertir un pdf en txt en ligne de commande pour le lire car il me semble qu'avec PDI, tu ne peux faire que des ajout ou une extraction mais pas récupérer le texte dans une variable ou du moins je n'ai pas compris comment le faire....(si quelqu'un a une idée?)

Pour l'indexation des mots se trouvant dans le PDF, je n'ai pas encore trouvé de solution si quelqu'un en a une, je suis toutes ouïes.

A bientôt

skmancuso

Recheche full-text de PDF

2 réponses

Votre réponse

Discussions similaires