Récupérer le texte d'un document .docx [Résolu]

Signaler
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Statut
Membre
Dernière intervention
31 janvier 2008
-
Messages postés
6
Date d'inscription
mardi 10 janvier 2006
Statut
Membre
Dernière intervention
13 mai 2011
-
bonjour, je voudrais savoir comment on fiat pour récupérer le texte d'un document .docx? si vous avez une idée. voila merci bien
A voir également:

10 réponses

Messages postés
1123
Date d'inscription
mardi 8 janvier 2002
Statut
Modérateur
Dernière intervention
21 avril 2009
1
coche un "Réponse accepté" afin d'indiquer aux autres que c'est bon pour toi merci :)
Messages postés
1123
Date d'inscription
mardi 8 janvier 2002
Statut
Modérateur
Dernière intervention
21 avril 2009
1
Yop ! :)

Un document Docx n'est tout simplement qu'une archive ZIP contenant un élement xml pour le corps du fichier, ainsi que des dossiers (pour les images, etc).

Tu n'a donc qu'a dézipper le fichier et récuperer le xml, ensuite si tu veux juste récuperer le texte sans mise en forme, tu supprime toutes les balises et ca devrait etre a peu pres bon.

walawala
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Statut
Membre
Dernière intervention
31 janvier 2008

merci bien ça a marché, le seul probleme est maintenant tous les caracteres speciaux.
Messages postés
1123
Date d'inscription
mardi 8 janvier 2002
Statut
Modérateur
Dernière intervention
21 avril 2009
1
si tu fait tout manuellement (dézip avec 7zip, winzip, winrar) et que tu ouvre le xml avec un éditeur de texte, tu a aussi des problemes d'encodages ?

si "non", alors utilise les fonction utf8_decode/utf8_encode (ca va dépendre du sens d'encodage, essaye une, puis l'autre si la premiere ne marche pas) et ton probleme devrait etre résolu ! :)
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Statut
Membre
Dernière intervention
31 janvier 2008

non j'utilise une fonction en php qui génére le chagment du .docx en .zip, puis le dezippe et va chercher dans le bon document le texte. en fait j'ai fait cela pour récupérer les mots clés d'un document. j'ai utilisé ta fonction utf8_decode etil y a beaucoup de "?" et avec l'autre il y a plein de caractere illisible donc j'ai pris la premiere.
Messages postés
1123
Date d'inscription
mardi 8 janvier 2002
Statut
Modérateur
Dernière intervention
21 avril 2009
1
si tu affiche ton fichier xml sans le modifier, tu devrai avoir l'indication sur le charset (utf8, iso8859), regarde cela, ensuite dans ton script php tu fait un header ("charset=utf8"); (faudra regarder la syntaxe exact sur le web) et tu ne devrait plus avoir de problemes d'encodage
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Statut
Membre
Dernière intervention
31 janvier 2008

merci beaucoup


dans mon doc XML j'ai ça :
 <?xml version="1.0" encoding="UTF-8" standalone="yes"

?>
donc j'ai copié ça dans ma page :
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
et j'ai toujours les "?". de plus a cause de cet encodage des mots se coupent pas au bon endroit ce qui fausse ma recherche de mots clés.
Messages postés
1123
Date d'inscription
mardi 8 janvier 2002
Statut
Modérateur
Dernière intervention
21 avril 2009
1
fait dans ton php :

header('Content-type: text/html; charset=UTF-8');

ensuite tu met
echo file_get_contents ('tonfichierxmldézippé.xml');
?>

et tu devrait plus avoir de problemes d'accents
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Statut
Membre
Dernière intervention
31 janvier 2008

ok merci bcp ca marche nikel!!!!
Messages postés
6
Date d'inscription
mardi 10 janvier 2006
Statut
Membre
Dernière intervention
13 mai 2011

Bonjour,
Est ce possible d'avoir le bout de code qui ta permis d'extraire le text du fichier docx
Merci c très urgent