Comparer 2 fichiers textes rapidement [Résolu]

Messages postés
30
Date d'inscription
lundi 24 février 2003
Statut
Membre
Dernière intervention
29 décembre 2008
- - Dernière réponse : chtitpierre78
Messages postés
30
Date d'inscription
lundi 24 février 2003
Statut
Membre
Dernière intervention
29 décembre 2008
- 4 déc. 2008 à 14:00
Bonjour,

Suite à un premier poste, dont le titre ne correspond pas du tout a ma demande, je re-poste ici, en espérant trouver  solution à mon problème. (Je n'ai pas reussi à trouver comment supprimer mon ancien post ... )

Je développe actuellement un outil en C++ (VisualC++)
qui me permet de comparer 2 fichiers textes (.txt) d'environ 4Mo chacun
(soit environ 60000 lignes de textes), le tout sous Windows. Le premier
fichier texte liste la totalité des fichiers de mon DD, avec leurs
tailles, leur date d'écriture et leurs chemin complet, tout ceci à un
instant N. Le second fichier, liste exactement la même chose, à un
instant N+1.
Les fichiers sont de la forme :

c:\monchemin\mondossier\monssdossier\monfichier.extension;taille;datedecriture
c:\monchemin\mondossier1\monssdossier1\monfichier1.extension;taille;datedecriture
c:\monchemin\mondossier1\monssdossier2\monfichier2.extension;taille;datedecriture
...

Jusque la, ca va, le listing est très rapide, et très efficace. Le problème qui se pose maintenant est le suivant :
La comparaison de mes 2 fichiers est très très lente. Je vous proposes rapidement mon algo de comparaison :

Lecture ligne 1 du fichier 2
Comparaison de la ligne 1 avec toutes les lignes du fichier 1
Si on ne trouve pas de ligne identique, on écrit cette ligne dans un fichier texte de sortie.

Lecture ligne 2 du fichier 2
Comparaison de la ligne 2 avec toutes les lignes du fichier 1
Si on ne trouve pas de ligne identique, on écrit cette ligne dans un fichier texte de sortie.

Et je continu comme ça en incrémentant le numéro de ligne du fichier 2.

Donc je compare chaque ligne de mon fichier 2, avec toutes les lignes de mon fichier 1.
Je comprend que ca prenne du temps, mais je dois absolument remédier à ça.

Voila mon code :

**************************************************************

void exclude (char *f1, char *f2)
{
    ifstream fichier2("2.txt");
    FILE *res;
    string ligne1;
    string ligne2;
    int cpt=0;
    bool test;

    res=fopen("res.txt","w");
    fprintf(res,"DIFFERENCES :\n\n");

    while(getline(fichier2,ligne2))
    {
        cout <<"\b\b\b\r" <<cpt++;
        test = true;
        ifstream fichier1("1.txt");

        while(getline(fichier1,ligne1))
        { 
            if(ligne2==ligne1)
            {
                test=true;
                break;
            }
            else
            {
                test=false;
            }
        }
        if(test==false)
        {
            fprintf(res,"%s\n",ligne2.c_str());
        }
    }
    fclose(res);
}

**************************************************************

Donc
voila, je me tourne vers vous, afin de savoir si il n'existe pas un
moyen plus rapide de comparer ces fichiers textes. Pour information, je
tourne sous un gros PC, plutôt bien équipé et d'après mes calculs je
suis a une moyenne d'analyse de 300 lignes analysées / minutes.

J'ai l'impression de mal m'y prendre, car en effet, je suis souvent confronté a un problème de lenteur, qui est, j'en suis certain, du a ma manière de codé. Avez vous des conseils a me donner a propos de rapidité d'exécution d'un programme ?

Cordialement

K. Pierre
Afficher la suite 

6 réponses

Meilleure réponse
Messages postés
1108
Date d'inscription
mercredi 15 juin 2011
Statut
Membre
Dernière intervention
10 juillet 2018
4
3
Merci
Salut,

Ca ne va peut-etre pas t'aider, mais j'ai utilisé SVN sous Windows avec l'interface Tortoisesvn. Dans cette appli il y un un comparateur de fichier.
Je ne connais pas les perfs de ce soft pour des fichiers aussi gros que les tiens.

C'est open source avec le code dispo sur ce lien :
http://tortoisesvn.tigris.org/svn/tortoisesvn/trunk/src/TortoiseIDiff/
login : guest
password : vide

Dire « Merci » 3

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

Codes Sources 135 internautes nous ont dit merci ce mois-ci

Commenter la réponse de fregolo52
Messages postés
21054
Date d'inscription
jeudi 23 janvier 2003
Statut
Modérateur
Dernière intervention
7 novembre 2014
13
0
Merci
Mais alors pourquoi on se décarcasse à répondre et vous faire des exemples si vous n'essayez même pas de vous en inspirer ???

1) Reprendre la partie indexation de mon exemple en ayant direct fait CloseHandle() sur le fichier source.
2) On ne crée pas de fichier 2 pour le comparer ensuite, totalement improductif.
Dans la récurrence FindextFile() du balayage volume, tu formes la chaine (NON string mais char[]) et tu compares avec l'indexation des lignes de source, seulement si ne s'y trouve pas tu insères dans fichier 2.

Quand on veut des perfs on code, exit les ifstream, string, fprintf et autres daubes de ce genre.

ciao...
BruNews, MVP VC++
Commenter la réponse de BruNews
Messages postés
123
Date d'inscription
samedi 14 juillet 2007
Statut
Membre
Dernière intervention
29 mars 2009
1
0
Merci
quel intérêt de comparer ligne à ligne ?!
il suffit de faire un chksm avec l'api Win32 et c'est immédiat.
Commenter la réponse de jeffy131
Messages postés
30
Date d'inscription
lundi 24 février 2003
Statut
Membre
Dernière intervention
29 décembre 2008
0
Merci
L'interet de le faire ligne par ligne, c'est que je souhaite obtenir en sortie une liste des elements qui differents d'un fichier à l'autre. Il ne s'agit pas simplement de savoir si ces fichiers sont differents, je veut savoir en quoi ils le sont.

En fait, mon objectif final est de lister les fichiers qui ont ete modifiés sur mon disque dur, entre un moment N et un momenr N+1. Et ceci, sans avoir un ReadChangesDirectory machin chose qui tourne 24h/24h en deamon....

BruNews > Je me suis plongé dans tes sources de comparaison de fichiers, afin de bidouiller et d'obtenir ce que je souhaite. Malheuresement, tout ca me prend un temps fou du fait que ton code est vraiment "tassé" et trés trés peu commenté. Je trouve ca malheureux, surtout en sachant que les gens qui trainent sur CPPFrance ne sont pas forcement des experts. Un code comme le tien pourrait effrayer plus d'un debutant ... Neanmoins, il faut admettre que  ton programme est ultra efficace/leger/rapide.

Cordialement
K.Pierre
Commenter la réponse de chtitpierre78
Messages postés
21054
Date d'inscription
jeudi 23 janvier 2003
Statut
Modérateur
Dernière intervention
7 novembre 2014
13
0
Merci
Faut donc pas hésiter à poser des questions en bas de la source, voila la bonne attitude. J'ai commencé à t'aider, je vais continuer.

vret = 2; // ERREUR SYSTEM
ReadFile(hfl, pbuf, n, &rw, 0);
CloseHandle(hfl); // FICHIER SOURCE FERME ILLICO
if(n != rw) goto relBUF;
....
....

Fichier1 étant fermé, enlever cette commande qui était plus bas dans le code original.
Tout le reste jusque:
n++;
nextLINE:
  if(!*d) goto goINFILE;
  d++;
  if(*d) goto fromBUF;
goINFILE:
doit rester, c'est l'indexation.
A ce point tu crées ton fichier 2 par CreateFile(...).
Comme dit plus haut, dans la récurrence FindNextFile(), tu crées tes chaines et tu compares comme dans source originale par:
  for(i = 0; i < n; i++) {
    if(plgn[n].len == LenDeTaChaine) {
      if(memcmp(plgn[i].pbts, TaChaine, LenDeTaChaine) == 0) goto prochainFICHIER;
    }
  }
WriteFile(hfl2, ....);
prochainFICHIER:
If(FindNextFile(....)) BOUCLAGE SUR VOPLUME;

CloseHandle(hfl2);

Suite en bas de la source si autres questions.

ciao...
BruNews, MVP VC++
Commenter la réponse de BruNews
Messages postés
30
Date d'inscription
lundi 24 février 2003
Statut
Membre
Dernière intervention
29 décembre 2008
0
Merci
Merci encore BruNews.
Mon problème n'est pas encore  totalement résolu, mais dés que j'aurai plus de temps, je me relancerai dedans.

Cordialement
K.Pierre
Commenter la réponse de chtitpierre78