Php pdf html et doc

cs_florian99 Messages postés 7 Date d'inscription vendredi 28 septembre 2007 Statut Membre Dernière intervention 21 février 2008 - 24 janv. 2008 à 15:09
codefalse Messages postés 1123 Date d'inscription mardi 8 janvier 2002 Statut Modérateur Dernière intervention 21 avril 2009 - 29 janv. 2008 à 16:19
Bonjour,

voilà mon probleme, je suis en train de realiser une sorte de moteur de recherche interne dans un site internet. Alors aucun souci pour analyser les fichier format texte pour recuperer les mots clé mais alors en se qui concerne les fichier au format doc, pdf et les page web, je suis perdu, j'ai deja chercher sur internet pour essayer de trouver comment faire mais je ne trouve rien, je pense que sa doit etre possible de tout convertir en txt, il n'yaurai alors plus de probleme, mais alor comment???...

donc si quelqu'un sait comment faire, sa me serai bien utile, d'vance merci...

                                                                                                            Florian.

PS: j'ai deja trouvé un code pour les format pdf, mais celui là ne marche qu'avec certain pdf (1.3 je croi)

7 réponses

yoman64 Messages postés 962 Date d'inscription samedi 19 janvier 2002 Statut Membre Dernière intervention 2 août 2010 2
24 janv. 2008 à 18:32
Salut,

Pour les pages web html tu devrais n'avoir aucun soucis, le texte est lisibles sans problème, il est rare que les tags de mise en page se place au milieu d'un mot. Donc une recherche de la même façon qu'avec tes fichiers textes ne devrait pas poser de problème.

Pour les pdf il y a un module pour php qui peut créer des pdf, je suppose que qu'il y en a surment un pour les lire, sinon il y a un tuto de malik7934 qui explique très bien comment récuperé le texte des documents pdf (1.4 non compressé par contre) :
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx

Pour les formats doc encore une fois ce ne sont que des balises de mise en page, mais une recherche directe fonctionnera sans doute difficilement, il doit y avoir une librairie pour les lires mais je ne connait pas.

-------------------
Vous cherchez un hebergement Php/MySQL Gratuit et sans publicités ??
Et bien c'est la : www.e3b.org  
0
codefalse Messages postés 1123 Date d'inscription mardi 8 janvier 2002 Statut Modérateur Dernière intervention 21 avril 2009 1
25 janv. 2008 à 13:12
Le format docx (format office 2007) n'est tout simplement que du xml zippé. Donc tu peux dézipper le docx et lire son contenu comme un fichier html/xml normal.

Pour l'ancien format (.doc) ca va etre plus galere, je te l'accorde.
Les formats odt (open office document) étant en xml, on revient au même système que cité précédement.
0
cs_florian99 Messages postés 7 Date d'inscription vendredi 28 septembre 2007 Statut Membre Dernière intervention 21 février 2008
28 janv. 2008 à 09:45
pour le pdf c'est bon sa fonctionne, j'utilise l'appliction pdf2txt qui via une commende dans le dos converti le fichier pdf en txt (sa marche tres bien), je lance donc cette application dans php avec la fonction exec().

je vais essayer de traiter les doc docx et html maintenant, pouriez vous me donner un peu plus d'info sur le traitement des document xml, merci.
0
cs_florian99 Messages postés 7 Date d'inscription vendredi 28 septembre 2007 Statut Membre Dernière intervention 21 février 2008
29 janv. 2008 à 14:39
voilà alors j'ai vu que pour les docx, il fallait en faite changer l'extention docx par zip, alors sa marche, sa me donne un fichier zip dans lequel je trouve mon document en format xml, voilà donc c'est pas mal, probleme, comme je veu tout automatiser, il faudrait que le dezzipage se fasse automatiquement. j'ai activé la librerie php_zip et j'ai lancer le code suivant:

$zip = zip_open("test.zip");
if ($zip)
{
     while($zip_entry = zip_read($zip)) 
    {
          echo "Nom :                    " . zip_entry_name($zip_entry) . "
";
          echo "Poids actuel :           " . zip_entry_filesize($zip_entry) . "
";
          echo "Poids compressé:         " . zip_entry_compressedsize($zip_entry) . "
";
          echo "Méthode de compression : " . zip_entry_compressionmethod($zip_entry) . "
";
     }
}

et j'obtien l'erreur suivante:

 Warning: zip_read() expects parameter 1 to be resource, string given in C:\Program Files\wamp\www\testzip\ZIP.php on line 4

quelqu'un peut m'aider, merci
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
codefalse Messages postés 1123 Date d'inscription mardi 8 janvier 2002 Statut Modérateur Dernière intervention 21 avril 2009 1
29 janv. 2008 à 15:05
Tu utilise quelle version de php ?
0
cs_florian99 Messages postés 7 Date d'inscription vendredi 28 septembre 2007 Statut Membre Dernière intervention 21 février 2008
29 janv. 2008 à 15:31
j'utilise php5 mais c'est bon, j'ai trouver autre choses, une bibliotheque de fonction php:
pclzip
sa marche tres bien.
0
codefalse Messages postés 1123 Date d'inscription mardi 8 janvier 2002 Statut Modérateur Dernière intervention 21 avril 2009 1
29 janv. 2008 à 16:19
php5 possède déjà une extensions zip ZipArchive, regarde du coté de php.net

php.net/ZipArchive

Elle te permettra de tout faire facilement !
0
Rejoignez-nous