Moteur de recherche (meta donnees full text sur pdf, word et xml)

Signaler
Messages postés
78
Date d'inscription
mardi 8 juin 2004
Statut
Membre
Dernière intervention
10 août 2005
-
Messages postés
78
Date d'inscription
mardi 8 juin 2004
Statut
Membre
Dernière intervention
10 août 2005
-
Bonjour à tous,

je suis habitué à Java et à LUCENE (http://lucene.apache.org/java/docs/) et je cherche à savoir s'il existe qqchose d'equivalent dans le monde de PHp

le but est de pouvoir faire des recherches sur ls metadonnées (nom du document , son auteur etc ....) et sur le contenu text de chaque document.(les document peuvent etre soit ds le file system ou avoir leur meta données dans une base de données mysql)

j'ai un peu cherché sur le site et il existe des sources sui font moteur de recherche mais j'ai pas vu ce que je cherchais....

donc si quelqu'un peut me donner une indication ce serait cool.

ou si vous avez une idée de comment developper ce genre de chose (en utilisant par exemple des outils tels que pdftotext, pdfinfo etc .....)

merci à tous

6 réponses

Messages postés
855
Date d'inscription
mardi 19 novembre 2002
Statut
Membre
Dernière intervention
28 juillet 2009
1
salut !



HtDig est un moteur de recherche controlable depuis php.

Mais à l'époque ou je l'utilisais, je crois qu'il n'intervenait que sur le titre et contenu du document.

A voir son évolution....



(google: htdig)
-------------------------------------
Les ordinateurs, plus on s'en sert moins, moins ça a de chance de mal marcher. [Les Shadoks]
Messages postés
78
Date d'inscription
mardi 8 juin 2004
Statut
Membre
Dernière intervention
10 août 2005

slt davwart et merci pour ta reponse,

celui là je le connaissais pas , mais j'ai déja un moteur pour le contenu de mes pages. ce que je cherche c surtout une recherche sur des word, pdf, xml qui sont pas forcement liés à une page de mon site. ds le file system par exemple....

d'autres outils? ou d'autres idée?
Messages postés
855
Date d'inscription
mardi 19 novembre 2002
Statut
Membre
Dernière intervention
28 juillet 2009
1
oui oui..
on parle bien de la meme chose.
word et pdf sont indéxés par htdig via son moteur d'idnexation : "rundig".

tu dois juste lui fournir tes utilitaires de conversion vers du texte (doc2txt, xls2txt,etc..)

Tu indiques à HtDig le repertoires contenant tes documents, et il t'indexe le tout.
Messages postés
78
Date d'inscription
mardi 8 juin 2004
Statut
Membre
Dernière intervention
10 août 2005

j'ai du aller vite dans ma lecture alors, je vais voir ça de plus prés.
sinon je vien de trouver ceci :
" Perlfect Search " qui à l'air pas mal

mais j'ai aps encore testé :

merci encore
Messages postés
855
Date d'inscription
mardi 19 novembre 2002
Statut
Membre
Dernière intervention
28 juillet 2009
1
n"hésite pas à nous donner la solution que tu as choisie ;)
Messages postés
78
Date d'inscription
mardi 8 juin 2004
Statut
Membre
Dernière intervention
10 août 2005

slt,

je vais tester ça je ne manquerai pas de faire un retour. promis, juré, et l'autre j'ai oublié

de ton coté n'hesite si tu trouve un autre outils ou discussion interessante sur le sujet..
merci ..