Php pdf html et doc

Question

Bonjour, 

voilà mon probleme, je suis en train de realiser une sorte de moteur de recherche interne dans un site internet. Alors aucun souci pour analyser les fichier format texte pour recuperer les mots clé mais alors en se qui concerne les fichier au format doc, pdf et les page web, je suis perdu, j'ai deja chercher sur internet pour essayer de trouver comment faire mais je ne trouve rien, je pense que sa doit etre possible de tout convertir en txt, il n'yaurai alors plus de probleme, mais alor comment???...

donc si quelqu'un sait comment faire, sa me serai bien utile, d'vance merci...

                                                                                                            Florian.

PS: j'ai deja trouvé un code pour les format pdf, mais celui là ne marche qu'avec certain pdf (1.3 je croi)

yoman64 · Answer

Salut,

Pour les pages web html tu devrais n'avoir aucun soucis, le texte est lisibles sans problème, il est rare que les tags de mise en page se place au milieu d'un mot. Donc une recherche de la même façon qu'avec tes fichiers textes ne devrait pas poser de problème.

Pour les pdf il y a un module pour php qui peut créer des pdf, je suppose que qu'il y en a surment un pour les lire, sinon il y a un tuto de malik7934 qui explique très bien comment récuperé le texte des documents pdf (1.4 non compressé par contre) :
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx

Pour les formats doc encore une fois ce ne sont que des balises de mise en page, mais une recherche directe fonctionnera sans doute difficilement, il doit y avoir une librairie pour les lires mais je ne connait pas.

-------------------
Vous cherchez un hebergement Php/MySQL Gratuit et sans publicités ?? 
Et bien c'est la : www.e3b.org

codefalse · Answer

Le format docx (format office 2007) n'est tout simplement que du xml zippé. Donc tu peux dézipper le docx et lire son contenu comme un fichier html/xml normal.

Pour l'ancien format (.doc) ca va etre plus galere, je te l'accorde.
Les formats odt (open office document) étant en xml, on revient au même système que cité précédement.

cs_florian99 · Answer

pour le pdf c'est bon sa fonctionne, j'utilise l'appliction pdf2txt qui via une commende dans le dos converti le fichier pdf en txt (sa marche tres bien), je lance donc cette application dans php avec la fonction exec().

je vais essayer de traiter les doc docx et html maintenant, pouriez vous me donner un peu plus d'info sur le traitement des document xml, merci.

cs_florian99 · Answer

voilà alors j'ai vu que pour les docx, il fallait en faite changer l'extention docx par zip, alors sa marche, sa me donne un fichier zip dans lequel je trouve mon document en format xml, voilà donc c'est pas mal, probleme, comme je veu tout automatiser, il faudrait que le dezzipage se fasse automatiquement. j'ai activé la librerie php_zip et j'ai lancer le code suivant:

$zip = zip_open("test.zip");
if ($zip) 
{
     while($zip_entry = zip_read($zip)) 
    {
          echo "Nom :                    " . zip_entry_name($zip_entry) . "
";
          echo "Poids actuel :           " . zip_entry_filesize($zip_entry) . "
";
          echo "Poids compressé:         " . zip_entry_compressedsize($zip_entry) . "
";
          echo "Méthode de compression : " . zip_entry_compressionmethod($zip_entry) . "
";
     }
}

et j'obtien l'erreur suivante:

 Warning: zip_read() expects parameter 1 to be resource, string given in C:\Program Files\wamp\www	estzip\ZIP.php on line 4

quelqu'un peut m'aider, merci

codefalse · Answer

Tu utilise quelle version de php ?

cs_florian99 · Answer

j'utilise php5 mais c'est bon, j'ai trouver autre choses, une bibliotheque de fonction php:
pclzip
sa marche tres bien.

codefalse · Answer

php5 possède déjà une extensions zip ZipArchive, regarde du coté de php.net

php.net/ZipArchive

Elle te permettra de tout faire facilement !

Php pdf html et doc

7 réponses

Votre réponse

Discussions similaires