cs_florian99
Messages postés7Date d'inscriptionvendredi 28 septembre 2007StatutMembreDernière intervention21 février 2008
-
24 janv. 2008 à 15:09
codefalse
Messages postés1123Date d'inscriptionmardi 8 janvier 2002StatutModérateurDernière intervention21 avril 2009
-
29 janv. 2008 à 16:19
Bonjour,
voilà mon probleme, je suis en train de realiser une sorte de moteur de recherche interne dans un site internet. Alors aucun souci pour analyser les fichier format texte pour recuperer les mots clé mais alors en se qui concerne les fichier au format doc, pdf et les page web, je suis perdu, j'ai deja chercher sur internet pour essayer de trouver comment faire mais je ne trouve rien, je pense que sa doit etre possible de tout convertir en txt, il n'yaurai alors plus de probleme, mais alor comment???...
donc si quelqu'un sait comment faire, sa me serai bien utile, d'vance merci...
Florian.
PS: j'ai deja trouvé un code pour les format pdf, mais celui là ne marche qu'avec certain pdf (1.3 je croi)
yoman64
Messages postés962Date d'inscriptionsamedi 19 janvier 2002StatutMembreDernière intervention 2 août 20102 24 janv. 2008 à 18:32
Salut,
Pour les pages web html tu devrais n'avoir aucun soucis, le texte est lisibles sans problème, il est rare que les tags de mise en page se place au milieu d'un mot. Donc une recherche de la même façon qu'avec tes fichiers textes ne devrait pas poser de problème.
Pour les pdf il y a un module pour php qui peut créer des pdf, je suppose que qu'il y en a surment un pour les lire, sinon il y a un tuto de malik7934 qui explique très bien comment récuperé le texte des documents pdf (1.4 non compressé par contre) :
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx
Pour les formats doc encore une fois ce ne sont que des balises de mise en page, mais une recherche directe fonctionnera sans doute difficilement, il doit y avoir une librairie pour les lires mais je ne connait pas.
-------------------
Vous cherchez un hebergement Php/MySQL Gratuit et sans publicités ??
Et bien c'est la : www.e3b.org
codefalse
Messages postés1123Date d'inscriptionmardi 8 janvier 2002StatutModérateurDernière intervention21 avril 20091 25 janv. 2008 à 13:12
Le format docx (format office 2007) n'est tout simplement que du xml zippé. Donc tu peux dézipper le docx et lire son contenu comme un fichier html/xml normal.
Pour l'ancien format (.doc) ca va etre plus galere, je te l'accorde.
Les formats odt (open office document) étant en xml, on revient au même système que cité précédement.
cs_florian99
Messages postés7Date d'inscriptionvendredi 28 septembre 2007StatutMembreDernière intervention21 février 2008 28 janv. 2008 à 09:45
pour le pdf c'est bon sa fonctionne, j'utilise l'appliction pdf2txt qui via une commende dans le dos converti le fichier pdf en txt (sa marche tres bien), je lance donc cette application dans php avec la fonction exec().
je vais essayer de traiter les doc docx et html maintenant, pouriez vous me donner un peu plus d'info sur le traitement des document xml, merci.
cs_florian99
Messages postés7Date d'inscriptionvendredi 28 septembre 2007StatutMembreDernière intervention21 février 2008 29 janv. 2008 à 14:39
voilà alors j'ai vu que pour les docx, il fallait en faite changer l'extention docx par zip, alors sa marche, sa me donne un fichier zip dans lequel je trouve mon document en format xml, voilà donc c'est pas mal, probleme, comme je veu tout automatiser, il faudrait que le dezzipage se fasse automatiquement. j'ai activé la librerie php_zip et j'ai lancer le code suivant: