the_number_9
Messages postés10Date d'inscriptionlundi 14 mai 2007StatutMembreDernière intervention31 janvier 2008
-
29 janv. 2008 à 10:29
geniprogramme
Messages postés6Date d'inscriptionmardi 10 janvier 2006StatutMembreDernière intervention13 mai 2011
-
13 mai 2011 à 11:05
bonjour, je voudrais savoir comment on fiat pour récupérer le texte d'un document .docx? si vous avez une idée. voila merci bien
codefalse
Messages postés1123Date d'inscriptionmardi 8 janvier 2002StatutModérateurDernière intervention21 avril 20091 29 janv. 2008 à 11:28
Yop ! :)
Un document Docx n'est tout simplement qu'une archive ZIP contenant un élement xml pour le corps du fichier, ainsi que des dossiers (pour les images, etc).
Tu n'a donc qu'a dézipper le fichier et récuperer le xml, ensuite si tu veux juste récuperer le texte sans mise en forme, tu supprime toutes les balises et ca devrait etre a peu pres bon.
codefalse
Messages postés1123Date d'inscriptionmardi 8 janvier 2002StatutModérateurDernière intervention21 avril 20091 29 janv. 2008 à 11:49
si tu fait tout manuellement (dézip avec 7zip, winzip, winrar) et que tu ouvre le xml avec un éditeur de texte, tu a aussi des problemes d'encodages ?
si "non", alors utilise les fonction utf8_decode/utf8_encode (ca va dépendre du sens d'encodage, essaye une, puis l'autre si la premiere ne marche pas) et ton probleme devrait etre résolu ! :)
Vous n’avez pas trouvé la réponse que vous recherchez ?
the_number_9
Messages postés10Date d'inscriptionlundi 14 mai 2007StatutMembreDernière intervention31 janvier 2008 29 janv. 2008 à 12:58
non j'utilise une fonction en php qui génére le chagment du .docx en .zip, puis le dezippe et va chercher dans le bon document le texte. en fait j'ai fait cela pour récupérer les mots clés d'un document. j'ai utilisé ta fonction utf8_decode etil y a beaucoup de "?" et avec l'autre il y a plein de caractere illisible donc j'ai pris la premiere.
codefalse
Messages postés1123Date d'inscriptionmardi 8 janvier 2002StatutModérateurDernière intervention21 avril 20091 29 janv. 2008 à 14:19
si tu affiche ton fichier xml sans le modifier, tu devrai avoir l'indication sur le charset (utf8, iso8859), regarde cela, ensuite dans ton script php tu fait un header ("charset=utf8"); (faudra regarder la syntaxe exact sur le web) et tu ne devrait plus avoir de problemes d'encodage
the_number_9
Messages postés10Date d'inscriptionlundi 14 mai 2007StatutMembreDernière intervention31 janvier 2008 29 janv. 2008 à 14:36
merci beaucoup
dans mon doc XML j'ai ça :
<?xml version="1.0" encoding="UTF-8" standalone="yes"
?>
donc j'ai copié ça dans ma page :
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
et j'ai toujours les "?". de plus a cause de cet encodage des mots se coupent pas au bon endroit ce qui fausse ma recherche de mots clés.