Récuperer le contenu d'un document Word pour indexation

Vince66 Messages postés 28 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 5 octobre 2011 - 13 févr. 2006 à 18:59
coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 - 13 févr. 2006 à 19:12
Bonjour,
je suis actuellement en train de développer en PHP un gestionnaire de documents avec un système d'indexation.
Pour l'instant, je n'index que les documents pdf grâce à pdftotext qui fonctionne à merveille.
Seulement, maintenant, je voudrais attaquer Word et Excel mais je n'ai trouvé aucun moyen de lire le contenu des fichiers en clair (il reste tout cet amas de hieroglyphes autour du texte). Evidemment, il faut que la solution fonctionne sous Linux :-)

Avez vous une idée sur la manière de procéder ?

Merci d'avance pour vos réponses. :-)

1 réponse

coucou747 Messages postés 12303 Date d'inscription mardi 10 février 2004 Statut Membre Dernière intervention 30 juillet 2012 42
13 févr. 2006 à 19:12
Salut,

et bien solution : attaque PS au lieu de WORD :)



Bon, franchement, t'avais une lib qui s'appuyait sur Open Office... mais je ne me souviens plus de son nom...

In a dream, I saw me, drop dead... U was there, U cried... It was just a dream, if I die, U won't cry, maybe, U'll be happy

Mon site (articles sur la programmation et programmes)
0