Récupérer le texte d'un document .docx [Résolu]

Messages postés
10
Date d'inscription
lundi 14 mai 2007
Dernière intervention
31 janvier 2008
- - Dernière réponse : geniprogramme
Messages postés
6
Date d'inscription
mardi 10 janvier 2006
Dernière intervention
13 mai 2011
- 13 mai 2011 à 11:05
bonjour, je voudrais savoir comment on fiat pour récupérer le texte d'un document .docx? si vous avez une idée. voila merci bien
Afficher la suite 

Votre réponse

10 réponses

Meilleure réponse
Messages postés
1127
Date d'inscription
mardi 8 janvier 2002
Dernière intervention
21 avril 2009
2
Merci
coche un "Réponse accepté" afin d'indiquer aux autres que c'est bon pour toi merci :)

Merci codefalse 2

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources a aidé 97 internautes ce mois-ci

Commenter la réponse de codefalse
Messages postés
1127
Date d'inscription
mardi 8 janvier 2002
Dernière intervention
21 avril 2009
1
Merci
Yop ! :)

Un document Docx n'est tout simplement qu'une archive ZIP contenant un élement xml pour le corps du fichier, ainsi que des dossiers (pour les images, etc).

Tu n'a donc qu'a dézipper le fichier et récuperer le xml, ensuite si tu veux juste récuperer le texte sans mise en forme, tu supprime toutes les balises et ca devrait etre a peu pres bon.

walawala
Commenter la réponse de codefalse
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Dernière intervention
31 janvier 2008
0
Merci
merci bien ça a marché, le seul probleme est maintenant tous les caracteres speciaux.
Commenter la réponse de the_number_9
Messages postés
1127
Date d'inscription
mardi 8 janvier 2002
Dernière intervention
21 avril 2009
0
Merci
si tu fait tout manuellement (dézip avec 7zip, winzip, winrar) et que tu ouvre le xml avec un éditeur de texte, tu a aussi des problemes d'encodages ?

si "non", alors utilise les fonction utf8_decode/utf8_encode (ca va dépendre du sens d'encodage, essaye une, puis l'autre si la premiere ne marche pas) et ton probleme devrait etre résolu ! :)
Commenter la réponse de codefalse
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Dernière intervention
31 janvier 2008
0
Merci
non j'utilise une fonction en php qui génére le chagment du .docx en .zip, puis le dezippe et va chercher dans le bon document le texte. en fait j'ai fait cela pour récupérer les mots clés d'un document. j'ai utilisé ta fonction utf8_decode etil y a beaucoup de "?" et avec l'autre il y a plein de caractere illisible donc j'ai pris la premiere.
Commenter la réponse de the_number_9
Messages postés
1127
Date d'inscription
mardi 8 janvier 2002
Dernière intervention
21 avril 2009
0
Merci
si tu affiche ton fichier xml sans le modifier, tu devrai avoir l'indication sur le charset (utf8, iso8859), regarde cela, ensuite dans ton script php tu fait un header ("charset=utf8"); (faudra regarder la syntaxe exact sur le web) et tu ne devrait plus avoir de problemes d'encodage
Commenter la réponse de codefalse
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Dernière intervention
31 janvier 2008
0
Merci
merci beaucoup


dans mon doc XML j'ai ça :
 <?xml version="1.0" encoding="UTF-8" standalone="yes"

?>
donc j'ai copié ça dans ma page :
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
et j'ai toujours les "?". de plus a cause de cet encodage des mots se coupent pas au bon endroit ce qui fausse ma recherche de mots clés.
Commenter la réponse de the_number_9
Messages postés
1127
Date d'inscription
mardi 8 janvier 2002
Dernière intervention
21 avril 2009
0
Merci
fait dans ton php :

header('Content-type: text/html; charset=UTF-8');

ensuite tu met
echo file_get_contents ('tonfichierxmldézippé.xml');
?>

et tu devrait plus avoir de problemes d'accents
Commenter la réponse de codefalse
Messages postés
10
Date d'inscription
lundi 14 mai 2007
Dernière intervention
31 janvier 2008
0
Merci
ok merci bcp ca marche nikel!!!!
Commenter la réponse de the_number_9
Messages postés
6
Date d'inscription
mardi 10 janvier 2006
Dernière intervention
13 mai 2011
0
Merci
Bonjour,
Est ce possible d'avoir le bout de code qui ta permis d'extraire le text du fichier docx
Merci c très urgent
Commenter la réponse de geniprogramme

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.