Comparer 2 fichiers textes rapidement

Résolu
chtitpierre78 Messages postés 30 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 29 décembre 2008 - 1 déc. 2008 à 14:30
chtitpierre78 Messages postés 30 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 29 décembre 2008 - 4 déc. 2008 à 14:00
Bonjour,

Suite à un premier poste, dont le titre ne correspond pas du tout a ma demande, je re-poste ici, en espérant trouver  solution à mon problème. (Je n'ai pas reussi à trouver comment supprimer mon ancien post ... )

Je développe actuellement un outil en C++ (VisualC++)
qui me permet de comparer 2 fichiers textes (.txt) d'environ 4Mo chacun
(soit environ 60000 lignes de textes), le tout sous Windows. Le premier
fichier texte liste la totalité des fichiers de mon DD, avec leurs
tailles, leur date d'écriture et leurs chemin complet, tout ceci à un
instant N. Le second fichier, liste exactement la même chose, à un
instant N+1.
Les fichiers sont de la forme :

c:\monchemin\mondossier\monssdossier\monfichier.extension;taille;datedecriture
c:\monchemin\mondossier1\monssdossier1\monfichier1.extension;taille;datedecriture
c:\monchemin\mondossier1\monssdossier2\monfichier2.extension;taille;datedecriture
...

Jusque la, ca va, le listing est très rapide, et très efficace. Le problème qui se pose maintenant est le suivant :
La comparaison de mes 2 fichiers est très très lente. Je vous proposes rapidement mon algo de comparaison :

Lecture ligne 1 du fichier 2
Comparaison de la ligne 1 avec toutes les lignes du fichier 1
Si on ne trouve pas de ligne identique, on écrit cette ligne dans un fichier texte de sortie.

Lecture ligne 2 du fichier 2
Comparaison de la ligne 2 avec toutes les lignes du fichier 1
Si on ne trouve pas de ligne identique, on écrit cette ligne dans un fichier texte de sortie.

Et je continu comme ça en incrémentant le numéro de ligne du fichier 2.

Donc je compare chaque ligne de mon fichier 2, avec toutes les lignes de mon fichier 1.
Je comprend que ca prenne du temps, mais je dois absolument remédier à ça.

Voila mon code :

**************************************************************

void exclude (char *f1, char *f2)
{
    ifstream fichier2("2.txt");
    FILE *res;
    string ligne1;
    string ligne2;
    int cpt=0;
    bool test;

    res=fopen("res.txt","w");
    fprintf(res,"DIFFERENCES :\n\n");

    while(getline(fichier2,ligne2))
    {
        cout <<"\b\b\b\r" <<cpt++;
        test = true;
        ifstream fichier1("1.txt");

        while(getline(fichier1,ligne1))
        { 
            if(ligne2==ligne1)
            {
                test=true;
                break;
            }
            else
            {
                test=false;
            }
        }
        if(test==false)
        {
            fprintf(res,"%s\n",ligne2.c_str());
        }
    }
    fclose(res);
}

**************************************************************

Donc
voila, je me tourne vers vous, afin de savoir si il n'existe pas un
moyen plus rapide de comparer ces fichiers textes. Pour information, je
tourne sous un gros PC, plutôt bien équipé et d'après mes calculs je
suis a une moyenne d'analyse de 300 lignes analysées / minutes.

J'ai l'impression de mal m'y prendre, car en effet, je suis souvent confronté a un problème de lenteur, qui est, j'en suis certain, du a ma manière de codé. Avez vous des conseils a me donner a propos de rapidité d'exécution d'un programme ?

Cordialement

K. Pierre

6 réponses

fregolo52 Messages postés 1114 Date d'inscription mercredi 15 juin 2011 Statut Membre Dernière intervention 6 mai 2021 4
1 déc. 2008 à 15:13
Salut,

Ca ne va peut-etre pas t'aider, mais j'ai utilisé SVN sous Windows avec l'interface Tortoisesvn. Dans cette appli il y un un comparateur de fichier.
Je ne connais pas les perfs de ce soft pour des fichiers aussi gros que les tiens.

C'est open source avec le code dispo sur ce lien :
http://tortoisesvn.tigris.org/svn/tortoisesvn/trunk/src/TortoiseIDiff/
login : guest
password : vide
3
BruNews Messages postés 21040 Date d'inscription jeudi 23 janvier 2003 Statut Modérateur Dernière intervention 21 août 2019
1 déc. 2008 à 15:22
Mais alors pourquoi on se décarcasse à répondre et vous faire des exemples si vous n'essayez même pas de vous en inspirer ???

1) Reprendre la partie indexation de mon exemple en ayant direct fait CloseHandle() sur le fichier source.
2) On ne crée pas de fichier 2 pour le comparer ensuite, totalement improductif.
Dans la récurrence FindextFile() du balayage volume, tu formes la chaine (NON string mais char[]) et tu compares avec l'indexation des lignes de source, seulement si ne s'y trouve pas tu insères dans fichier 2.

Quand on veut des perfs on code, exit les ifstream, string, fprintf et autres daubes de ce genre.

ciao...
BruNews, MVP VC++
0
jeffy131 Messages postés 123 Date d'inscription samedi 14 juillet 2007 Statut Membre Dernière intervention 29 mars 2009 1
1 déc. 2008 à 17:07
quel intérêt de comparer ligne à ligne ?!
il suffit de faire un chksm avec l'api Win32 et c'est immédiat.
0
chtitpierre78 Messages postés 30 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 29 décembre 2008
1 déc. 2008 à 18:43
L'interet de le faire ligne par ligne, c'est que je souhaite obtenir en sortie une liste des elements qui differents d'un fichier à l'autre. Il ne s'agit pas simplement de savoir si ces fichiers sont differents, je veut savoir en quoi ils le sont.

En fait, mon objectif final est de lister les fichiers qui ont ete modifiés sur mon disque dur, entre un moment N et un momenr N+1. Et ceci, sans avoir un ReadChangesDirectory machin chose qui tourne 24h/24h en deamon....

BruNews > Je me suis plongé dans tes sources de comparaison de fichiers, afin de bidouiller et d'obtenir ce que je souhaite. Malheuresement, tout ca me prend un temps fou du fait que ton code est vraiment "tassé" et trés trés peu commenté. Je trouve ca malheureux, surtout en sachant que les gens qui trainent sur CPPFrance ne sont pas forcement des experts. Un code comme le tien pourrait effrayer plus d'un debutant ... Neanmoins, il faut admettre que  ton programme est ultra efficace/leger/rapide.

Cordialement
K.Pierre
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
BruNews Messages postés 21040 Date d'inscription jeudi 23 janvier 2003 Statut Modérateur Dernière intervention 21 août 2019
1 déc. 2008 à 20:51
Faut donc pas hésiter à poser des questions en bas de la source, voila la bonne attitude. J'ai commencé à t'aider, je vais continuer.

vret = 2; // ERREUR SYSTEM
ReadFile(hfl, pbuf, n, &rw, 0);
CloseHandle(hfl); // FICHIER SOURCE FERME ILLICO
if(n != rw) goto relBUF;
....
....

Fichier1 étant fermé, enlever cette commande qui était plus bas dans le code original.
Tout le reste jusque:
n++;
nextLINE:
  if(!*d) goto goINFILE;
  d++;
  if(*d) goto fromBUF;
goINFILE:
doit rester, c'est l'indexation.
A ce point tu crées ton fichier 2 par CreateFile(...).
Comme dit plus haut, dans la récurrence FindNextFile(), tu crées tes chaines et tu compares comme dans source originale par:
  for(i = 0; i < n; i++) {
    if(plgn[n].len == LenDeTaChaine) {
      if(memcmp(plgn[i].pbts, TaChaine, LenDeTaChaine) == 0) goto prochainFICHIER;
    }
  }
WriteFile(hfl2, ....);
prochainFICHIER:
If(FindNextFile(....)) BOUCLAGE SUR VOPLUME;

CloseHandle(hfl2);

Suite en bas de la source si autres questions.

ciao...
BruNews, MVP VC++
0
chtitpierre78 Messages postés 30 Date d'inscription lundi 24 février 2003 Statut Membre Dernière intervention 29 décembre 2008
4 déc. 2008 à 14:00
Merci encore BruNews.
Mon problème n'est pas encore  totalement résolu, mais dés que j'aurai plus de temps, je me relancerai dedans.

Cordialement
K.Pierre
0
Rejoignez-nous