(debutant )Frequence des mots

Question

Salut tout le monde,
Je voudrais savoir comment calculer  la Frequence des mots dans  un corpus composé de plusieurs documents..
la sortie devrait ressembler à ça:
index du document - mot - freqence

Exemple : Doc:1 { salon: 3,table:1} 
                  Doc:2 { bilan:1, cheque:4} etc..
Avez vous  svp une idee!?
merci

Ombitious_Developper · Answer

Salut:

Je ne vois pas où est le problème.

Il faut juste:

1. Créer une structure de données (tableau, liste, ...)
Personnellement je te conseille d'utiliser une liste.
 
2. lire le fichier ligne par ligne
3. Extraire les jetons de chaque ligne:
 - Voir si la liste contient cet élément si oui incrémenter le nombre d'occurence
 - Sinon ajouter une nouvelle entrée de cet élément dans la liste.

4. Répèter ces points.

Ou bien:

Extraire tous les mots du fichier, puis le mettre dans un tableau
Trier ce tableau
Compter le nombre d'occurence de chaque élément.

Palazzo · Answer

merci , je veux utiliser au fait un HashMap comme structure de données,  pourquoi trouves tu une liste meilleure?

Ombitious_Developper · Answer

Salut:

Je trouve une liste la structure de données la plus adéquate pour deux choses:

1. On est en train d'ajouter les éléments au fûr et à mesure de notre recherche; création de nouvelles entrées.

2. On est en train de réaliser un accès séquentielle lors des éléments existents.

ça n'empêches pas que d'autres structures de données sont aussi favorables, une liste traduit parfaitement ce que je pense c'est tout.

Remarque:
Tu peux utiliser un HashSet pour unifier le tableaux, enlever les doublons.

Palazzo · Answer

Salut :
Cela marche pour un seul et unique fichier, si je veux  obtenir le nombre d'occurence des mots dans plusieurs fichiers simultanément, il faudra implementer une "matrice-document-terme" et ça, ça me depasse!!

Palazzo · Answer

Salut :
Cela marche pour un seul et unique fichier, si je veux  obtenir le nombre d'occurences des mots dans plusieurs fichiers simultanément, il faudra implementer une "matrice-document-terme" et ça, ça me depasse!!

Ombitious_Developper · Answer

Salut:

Je ne vois pas où est le problème. Que ce soit un fichier ou plusieurs c'est le même procédé.

Quel problème as tu rencontré?

---------------------------------------------------------------------------------
A.B. : Qui veut faire quelque chose trouve un moyen.
       Qui ne veut faire rien trouve un excuse

Palazzo · Answer

D'abord y'a un probleme avec la methode StringTokenizer , j'arrive pas a splitter en tokens tous le fichier. y'a aussi l'indexation des differents documents qui composent le corpus! Encore une fois  chaque document   est representé par son index suivi du nombre d'occurrences des mots ou tokens qu'il contient:.

Ombitious_Developper · Answer

Salut:

C'est ligne par ligne que tu cherches les tokens.
Si le fichier n'est pas long tu peux mettre tout le contenu de ce fichier dans une seul chaine de caractères.
Pour faire ça tu peux utiliser:
1. La méthode readFully ()
2. StringBuffer.

Palazzo · Answer

Je me suis mal fait comprendre peut-etre.mon idee etait d'implementer un matrice document-terme zu implementieren! Seulement j'ai des prblemes avec mon code. ---- , TERME 1, TERME 2, TERME 3, TERME 4, ---- DOC 1, 2, 5, 8, 5, ---- DOC 2, 1, 4, 3, 7 import java.io.*; import java.util.*; class CorpVectors { int[][] docVector; int docAnz; int termeAnz; CorpVectors(AllDocs Corpus) { docAnz= Corpus.allDocsArray.length; termeAnz= Corpus.indexSetArray.length; // nbre de Textes System.out.println("length: " +termeAnz); docVector = new int[docAnz][termeAnz]; } void fillDocVector(AllDocs Corpus) { int i; //doc int j; //term for(i=0; i"+counter); return(counter); }//frequence() void docVectorToFile(AllDocs Corpus) { int i; //doc int j; //term try { for(i=0; i " + this.docVector[i][j] + " "); //System.out.println("DOC " + i + " | TERM " + j + "-frequence--> " + this.docVector[i][j]); }//for fwBuff.close(); }//for } catch (IOException e) { System.out.println("Error docVectorToFile() -- " + e.toString()); } }//docVectorToFile() }

(debutant )Frequence des mots

9 réponses

Votre réponse

Discussions similaires