Parsing arabic text: pdf, doc...

cs_ounich Messages postés 5 Date d'inscription mercredi 28 septembre 2011 Statut Membre Dernière intervention 2 avril 2012 - 27 nov. 2011 à 23:50
cs_rt15 Messages postés 3874 Date d'inscription mardi 8 mars 2005 Statut Modérateur Dernière intervention 7 novembre 2014 - 28 nov. 2011 à 09:13
Bonsoir à tous,
je veux indexer des documents arabes via lucene, mais le problème c'est que j'ai besoin d'un outil pour extrare les fichiers pdf, doc, xml...
Est ce que tika est suffisant pour l'arabe???
SVP, quelqu'un peut m'aider....
merci beaucoup

2 réponses

cs_LA_Tupac Messages postés 305 Date d'inscription jeudi 29 avril 2004 Statut Membre Dernière intervention 18 janvier 2012 1
28 nov. 2011 à 02:40
Bonsoir, j'ai un peut potassé la doc et il semble que la fonction
language.LanguageIdentifier.getSupportedLanguages()

donne la réponse à ta question... Essayes-donc et regarde si tu trouves l'arabe dans la liste retournée
0
cs_rt15 Messages postés 3874 Date d'inscription mardi 8 mars 2005 Statut Modérateur Dernière intervention 7 novembre 2014 13
28 nov. 2011 à 09:13
Bonjour,

Pour une question java, merci de poster sur javafr dans un thème java.

[ Déplacé sur javafr ]
0