Récupérer le texte d'un document .docx [Résolu]

the_number_9 10 Messages postés lundi 14 mai 2007Date d'inscription 31 janvier 2008 Dernière intervention - 29 janv. 2008 à 10:29 - Dernière réponse : geniprogramme 6 Messages postés mardi 10 janvier 2006Date d'inscription 13 mai 2011 Dernière intervention
- 13 mai 2011 à 11:05
bonjour, je voudrais savoir comment on fiat pour récupérer le texte d'un document .docx? si vous avez une idée. voila merci bien
Afficher la suite 

10 réponses

Répondre au sujet
codefalse 1127 Messages postés mardi 8 janvier 2002Date d'inscription 21 avril 2009 Dernière intervention - 29 janv. 2008 à 16:18
+2
Utile
coche un "Réponse accepté" afin d'indiquer aux autres que c'est bon pour toi merci :)
Cette réponse vous a-t-elle aidé ?  
Commenter la réponse de codefalse
codefalse 1127 Messages postés mardi 8 janvier 2002Date d'inscription 21 avril 2009 Dernière intervention - 29 janv. 2008 à 11:28
+1
Utile
Yop ! :)

Un document Docx n'est tout simplement qu'une archive ZIP contenant un élement xml pour le corps du fichier, ainsi que des dossiers (pour les images, etc).

Tu n'a donc qu'a dézipper le fichier et récuperer le xml, ensuite si tu veux juste récuperer le texte sans mise en forme, tu supprime toutes les balises et ca devrait etre a peu pres bon.

walawala
Commenter la réponse de codefalse
the_number_9 10 Messages postés lundi 14 mai 2007Date d'inscription 31 janvier 2008 Dernière intervention - 29 janv. 2008 à 11:47
0
Utile
merci bien ça a marché, le seul probleme est maintenant tous les caracteres speciaux.
Commenter la réponse de the_number_9
codefalse 1127 Messages postés mardi 8 janvier 2002Date d'inscription 21 avril 2009 Dernière intervention - 29 janv. 2008 à 11:49
0
Utile
si tu fait tout manuellement (dézip avec 7zip, winzip, winrar) et que tu ouvre le xml avec un éditeur de texte, tu a aussi des problemes d'encodages ?

si "non", alors utilise les fonction utf8_decode/utf8_encode (ca va dépendre du sens d'encodage, essaye une, puis l'autre si la premiere ne marche pas) et ton probleme devrait etre résolu ! :)
Commenter la réponse de codefalse
the_number_9 10 Messages postés lundi 14 mai 2007Date d'inscription 31 janvier 2008 Dernière intervention - 29 janv. 2008 à 12:58
0
Utile
non j'utilise une fonction en php qui génére le chagment du .docx en .zip, puis le dezippe et va chercher dans le bon document le texte. en fait j'ai fait cela pour récupérer les mots clés d'un document. j'ai utilisé ta fonction utf8_decode etil y a beaucoup de "?" et avec l'autre il y a plein de caractere illisible donc j'ai pris la premiere.
Commenter la réponse de the_number_9
codefalse 1127 Messages postés mardi 8 janvier 2002Date d'inscription 21 avril 2009 Dernière intervention - 29 janv. 2008 à 14:19
0
Utile
si tu affiche ton fichier xml sans le modifier, tu devrai avoir l'indication sur le charset (utf8, iso8859), regarde cela, ensuite dans ton script php tu fait un header ("charset=utf8"); (faudra regarder la syntaxe exact sur le web) et tu ne devrait plus avoir de problemes d'encodage
Commenter la réponse de codefalse
the_number_9 10 Messages postés lundi 14 mai 2007Date d'inscription 31 janvier 2008 Dernière intervention - 29 janv. 2008 à 14:36
0
Utile
merci beaucoup


dans mon doc XML j'ai ça :
 <?xml version="1.0" encoding="UTF-8" standalone="yes"

?>
donc j'ai copié ça dans ma page :
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
et j'ai toujours les "?". de plus a cause de cet encodage des mots se coupent pas au bon endroit ce qui fausse ma recherche de mots clés.
Commenter la réponse de the_number_9
codefalse 1127 Messages postés mardi 8 janvier 2002Date d'inscription 21 avril 2009 Dernière intervention - 29 janv. 2008 à 15:04
0
Utile
fait dans ton php :

header('Content-type: text/html; charset=UTF-8');

ensuite tu met
echo file_get_contents ('tonfichierxmldézippé.xml');
?>

et tu devrait plus avoir de problemes d'accents
Commenter la réponse de codefalse
the_number_9 10 Messages postés lundi 14 mai 2007Date d'inscription 31 janvier 2008 Dernière intervention - 29 janv. 2008 à 15:43
0
Utile
ok merci bcp ca marche nikel!!!!
Commenter la réponse de the_number_9
geniprogramme 6 Messages postés mardi 10 janvier 2006Date d'inscription 13 mai 2011 Dernière intervention - 13 mai 2011 à 11:05
0
Utile
Bonjour,
Est ce possible d'avoir le bout de code qui ta permis d'extraire le text du fichier docx
Merci c très urgent
Commenter la réponse de geniprogramme

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.