skmancuso
Messages postés53Date d'inscriptionlundi 23 juin 2003StatutMembreDernière intervention11 janvier 2007
-
11 janv. 2007 à 12:02
skmancuso
Messages postés53Date d'inscriptionlundi 23 juin 2003StatutMembreDernière intervention11 janvier 2007
-
11 janv. 2007 à 14:23
Bonjour,
Voilà, j'ai un problème de conception assez important et je souhaiterais l'avis et les idées d'autres personnes. Je suis en train de travailler sur un projet de GED(Gestion Electronique des Documents). Le projet est le suivant:
- On souhaite rechercher en full-text des mots à la facon de google dans des PDF.
Je sais que lire directement des PDF n'est pas évident. Par conséquent, je sais qu'on peut les extraire en txt. Le problème est que je risque d'avoir de la redondance d'information inutile par le fait d'avoir une fois le pdf et une fois le txt. J'ai aussi imaginer faire de l'indexation full-text dans la base mysql, mais là aussi on a redondance de l'informaiton entre le fichier PDF et le contenu de la base qui contiendra les texte du PDF.
Je suis obligé de conservé les PDF car leur mise en page est relativement importante et doit être conservée.
L'idée serait d'avoir les pdf dans un répertoire et créer une base de données créant une sorte de dictionnaire de référencement/indexation des PDF lié à la position du PDF concerné
Il s'agit aussi d'éviter d'utiliser les métatag PDF trop restrictif et la transformation en fichier TXT. Je sais aussi que google est capable de le faire. Le tout est de savoir comment......(chose que je ne comprend pas)
Je sais que ce projet n'est pas évident mais la moindre piste est intéressante, car il s'agit d'une demande que je trouve sur beaucoup de forum.
skmancuso
Messages postés53Date d'inscriptionlundi 23 juin 2003StatutMembreDernière intervention11 janvier 2007 11 janv. 2007 à 14:23
Hello,
Merci pour ta réponse,
Il y a quelque chose que je n'ai pas compris avec pdflib, est-il payant? Sur le site il parle de licences.....
J'utilise pour ma part XPDF qui permet de convertir un pdf en txt en ligne de commande pour le lire car il me semble qu'avec PDI, tu ne peux faire que des ajout ou une extraction mais pas récupérer le texte dans une variable ou du moins je n'ai pas compris comment le faire....(si quelqu'un a une idée?)
Pour l'indexation des mots se trouvant dans le PDF, je n'ai pas encore trouvé de solution si quelqu'un en a une, je suis toutes ouïes.