Moteur de recherche (meta donnees full text sur pdf, word et xml)

bidani Messages postés 78 Date d'inscription mardi 8 juin 2004 Statut Membre Dernière intervention 10 août 2005 - 12 juil. 2005 à 12:18
bidani Messages postés 78 Date d'inscription mardi 8 juin 2004 Statut Membre Dernière intervention 10 août 2005 - 13 juil. 2005 à 09:41
Bonjour à tous,

je suis habitué à Java et à LUCENE (http://lucene.apache.org/java/docs/) et je cherche à savoir s'il existe qqchose d'equivalent dans le monde de PHp

le but est de pouvoir faire des recherches sur ls metadonnées (nom du document , son auteur etc ....) et sur le contenu text de chaque document.(les document peuvent etre soit ds le file system ou avoir leur meta données dans une base de données mysql)

j'ai un peu cherché sur le site et il existe des sources sui font moteur de recherche mais j'ai pas vu ce que je cherchais....

donc si quelqu'un peut me donner une indication ce serait cool.

ou si vous avez une idée de comment developper ce genre de chose (en utilisant par exemple des outils tels que pdftotext, pdfinfo etc .....)

merci à tous
A voir également:

6 réponses

davwart Messages postés 855 Date d'inscription mardi 19 novembre 2002 Statut Membre Dernière intervention 28 juillet 2009 1
12 juil. 2005 à 14:22
salut !



HtDig est un moteur de recherche controlable depuis php.

Mais à l'époque ou je l'utilisais, je crois qu'il n'intervenait que sur le titre et contenu du document.

A voir son évolution....



(google: htdig)
-------------------------------------
Les ordinateurs, plus on s'en sert moins, moins ça a de chance de mal marcher. [Les Shadoks]
0
bidani Messages postés 78 Date d'inscription mardi 8 juin 2004 Statut Membre Dernière intervention 10 août 2005
12 juil. 2005 à 14:54
slt davwart et merci pour ta reponse,

celui là je le connaissais pas , mais j'ai déja un moteur pour le contenu de mes pages. ce que je cherche c surtout une recherche sur des word, pdf, xml qui sont pas forcement liés à une page de mon site. ds le file system par exemple....

d'autres outils? ou d'autres idée?
0
davwart Messages postés 855 Date d'inscription mardi 19 novembre 2002 Statut Membre Dernière intervention 28 juillet 2009 1
12 juil. 2005 à 15:04
oui oui..
on parle bien de la meme chose.
word et pdf sont indéxés par htdig via son moteur d'idnexation : "rundig".

tu dois juste lui fournir tes utilitaires de conversion vers du texte (doc2txt, xls2txt,etc..)

Tu indiques à HtDig le repertoires contenant tes documents, et il t'indexe le tout.
0
bidani Messages postés 78 Date d'inscription mardi 8 juin 2004 Statut Membre Dernière intervention 10 août 2005
12 juil. 2005 à 16:02
j'ai du aller vite dans ma lecture alors, je vais voir ça de plus prés.
sinon je vien de trouver ceci :
" Perlfect Search " qui à l'air pas mal

mais j'ai aps encore testé :

merci encore
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
davwart Messages postés 855 Date d'inscription mardi 19 novembre 2002 Statut Membre Dernière intervention 28 juillet 2009 1
12 juil. 2005 à 16:09
n"hésite pas à nous donner la solution que tu as choisie ;)
0
bidani Messages postés 78 Date d'inscription mardi 8 juin 2004 Statut Membre Dernière intervention 10 août 2005
13 juil. 2005 à 09:41
slt,

je vais tester ça je ne manquerai pas de faire un retour. promis, juré, et l'autre j'ai oublié

de ton coté n'hesite si tu trouve un autre outils ou discussion interessante sur le sujet..
merci ..
0
Rejoignez-nous