Palazzo
Messages postés9Date d'inscriptionsamedi 26 mai 2007StatutMembreDernière intervention 7 juin 2007
-
26 mai 2007 à 17:57
Palazzo
Messages postés9Date d'inscriptionsamedi 26 mai 2007StatutMembreDernière intervention 7 juin 2007
-
1 juin 2007 à 13:17
Salut tout le monde,
Je voudrais savoir comment calculer la Frequence des mots dans un corpus composé de plusieurs documents..
la sortie devrait ressembler à ça:
index du document - mot - freqence
Exemple : Doc:1 { salon: 3,table:1}
Doc:2 { bilan:1, cheque:4} etc..
Avez vous svp une idee!?
merci
Ombitious_Developper
Messages postés2333Date d'inscriptionsamedi 28 février 2004StatutMembreDernière intervention26 juillet 201338 27 mai 2007 à 00:05
Salut:
Je ne vois pas où est le problème.
Il faut juste:
1. Créer une structure de données (tableau, liste, ...)
Personnellement je te conseille d'utiliser une liste.
2. lire le fichier ligne par ligne
3. Extraire les jetons de chaque ligne:
- Voir si la liste contient cet élément si oui incrémenter le nombre d'occurence
- Sinon ajouter une nouvelle entrée de cet élément dans la liste.
4. Répèter ces points.
Ou bien:
Extraire tous les mots du fichier, puis le mettre dans un tableau
Trier ce tableau
Compter le nombre d'occurence de chaque élément.
Palazzo
Messages postés9Date d'inscriptionsamedi 26 mai 2007StatutMembreDernière intervention 7 juin 2007 31 mai 2007 à 12:58
Salut :
Cela marche pour un seul et unique fichier, si je veux obtenir le nombre d'occurence des mots dans plusieurs fichiers simultanément, il faudra implementer une "matrice-document-terme" et ça, ça me depasse!!
Vous n’avez pas trouvé la réponse que vous recherchez ?
Palazzo
Messages postés9Date d'inscriptionsamedi 26 mai 2007StatutMembreDernière intervention 7 juin 2007 31 mai 2007 à 12:59
Salut :
Cela marche pour un seul et unique fichier, si je veux obtenir le nombre d'occurences des mots dans plusieurs fichiers simultanément, il faudra implementer une "matrice-document-terme" et ça, ça me depasse!!
Ombitious_Developper
Messages postés2333Date d'inscriptionsamedi 28 février 2004StatutMembreDernière intervention26 juillet 201338 31 mai 2007 à 13:13
Salut:
Je ne vois pas où est le problème. Que ce soit un fichier ou plusieurs c'est le même procédé.
Quel problème as tu rencontré?
---------------------------------------------------------------------------------
A.B. : Qui veut faire quelque chose trouve un moyen.
Qui ne veut faire rien trouve un excuse
Palazzo
Messages postés9Date d'inscriptionsamedi 26 mai 2007StatutMembreDernière intervention 7 juin 2007 31 mai 2007 à 13:38
D'abord y'a un probleme avec la methode StringTokenizer , j'arrive pas a splitter en tokens tous le fichier. y'a aussi l'indexation des differents documents qui composent le corpus! Encore une fois chaque document est representé par son index suivi du nombre d'occurrences des mots ou tokens qu'il contient:.
Ombitious_Developper
Messages postés2333Date d'inscriptionsamedi 28 février 2004StatutMembreDernière intervention26 juillet 201338 31 mai 2007 à 21:31
Salut:
C'est ligne par ligne que tu cherches les tokens.
Si le fichier n'est pas long tu peux mettre tout le contenu de ce fichier dans une seul chaine de caractères.
Pour faire ça tu peux utiliser:
1. La méthode readFully ()
2. StringBuffer.