COMPARAISON ENTRE 2 CHAINES, RETOURNE UN POURCENTAGE DE RESSEMBLANCE (DUPONT = 6
celiphane
Messages postés466Date d'inscriptionsamedi 16 février 2002StatutMembreDernière intervention20 avril 2007
-
12 avril 2005 à 00:25
jbndour
Messages postés1Date d'inscriptiondimanche 21 mars 2010StatutMembreDernière intervention 1 septembre 2010
-
1 sept. 2010 à 20:19
Cette discussion concerne un article du site. Pour la consulter dans son contexte d'origine, cliquez sur le lien ci-dessous.
jbndour
Messages postés1Date d'inscriptiondimanche 21 mars 2010StatutMembreDernière intervention 1 septembre 2010 1 sept. 2010 à 20:19
Bonjour Celiphane,
je vois que ton post date de très longtemps. Om me propose d'utiliser ta macro dans une recherche de doublons sur un fichier qui doit contenir à terme 33000 lignes qui correspondent à des noms-prénoms-date de naissance et autres. j'ai déja créer la chaine de caractères à comparer.
Comment penses-tu que l'on pourrais adapter ta macro ou est-il réaliste de l'tuliser vu qu'il devrait calculer environ 500 millions de taux et les ressortir.
Merci de pourvoir me répondre si possible.
Merci d'avance
Zickos
Messages postés1Date d'inscriptionmardi 19 avril 2005StatutMembreDernière intervention19 avril 2005 19 avril 2005 à 08:22
Salut,
j'aimerais bien implémenter cette fonction en C++ car c'est exactement ce que j'ai besoin. Si tu sais où je pourrais trouver le code déja fait ce serait cool, sinon j'aimerais bien avoir le pseudo code de ta fonction car le VB c'est pas ma branche. Connais-tu la méthode Oliver93, celle utilisée pour la fonction similar_text() de php et qui permet de trouver un pourcentage de similitude entre 2 chaînes de caractères?
Merci
@+
celiphane
Messages postés466Date d'inscriptionsamedi 16 février 2002StatutMembreDernière intervention20 avril 2007 14 avril 2005 à 00:18
C'est clair que de toute facon ça n'a rien à voir... je vois pas pourquoi d'ailleurs tu est venu sur cette source (la mienne)
;-)
Ici, c'est pour comparer le pourcentage de similitude entre 2 chaines de caractères lol
Enfin, je suis content pour toi que tu ais trouvé ton bonheur...
@+
Celiphane
asem67
Messages postés145Date d'inscriptionmardi 3 septembre 2002StatutMembreDernière intervention24 février 2008 14 avril 2005 à 00:05
celiphane
Messages postés466Date d'inscriptionsamedi 16 février 2002StatutMembreDernière intervention20 avril 2007 13 avril 2005 à 23:30
mon dieu mon dieu...
nan c'est pas fait pour les images. <-(
Encore que, avec un tout petit peu d'effort, en transformant les images en 256 couleurs, en mettant chaque octets de l'une dans le tableau b1 et pareil pour l'autre dans b2,
on puisse peut-être obtenir un pourcentage de ressemblance entre les 2 images... à essayer... personnellement je le ferais facilement mais j'en ai pas le temps... ni l'envie, ni le besoin d'ailleurs (ce qui concorde peut-être avec le fait que j'ai pas le temps ?)
@+
Celiphane
asem67
Messages postés145Date d'inscriptionmardi 3 septembre 2002StatutMembreDernière intervention24 février 2008 13 avril 2005 à 22:34
Slt.
j'ai essayer de comparer des images, et non ça ne fonctionne pas .
qq serait comment faire ???
Merci pour la source c nickel !!
Neo.balastik
Messages postés796Date d'inscriptionjeudi 17 mai 2001StatutMembreDernière intervention 5 mai 20097 12 avril 2005 à 21:13
Un genre de source que je n'avais encore jamais rencontré. Cela pourrait être intéressant pour des requêtes sur un DB.
Bravo.
En effet, un bon complément serait les homophonies ("o" et "au") et les abréviations.
Je suis un newbie, mais je vais essayer pour quelques homophonies.
A plus
celiphane
Messages postés466Date d'inscriptionsamedi 16 février 2002StatutMembreDernière intervention20 avril 2007 12 avril 2005 à 15:10
salut.
oui, cette valeur (0.75) me semble correcte.
En fait, selon les champs en présence (nom, prénom, adresse, ville) j'applique à chaque champ une valeur différente (j'oscille entre 0.6 pour être souple sur le nom, si toutefois j'ai d'autres champs sur lesquels je pourrais être plus sévêre, allant jusqu'à 0.85 : ainsi, je peux être léger sur le nom et trancher définitivement grâce au prénom, ou à la ville etc).
Parmi les pièges aussi, faut penser au doublon genre :
"Pr Martin" et "Professeur Martin"
"M. Martin" et "Monsieur Martin"
qui sont de vrais doublons, mais pas si facile à reconnaître pour une machine !
C'est vrai que ce n'est pas LA solution clé en main pour dédoublonner, mais tout de même un sacré outil à exploiter dans ce sens... C'est ensuite au développeur de jouer d'astuces (genre sur une comparaison, ne comparer que le début, puis que la fin des chaînes... etc...)
Et bien, ca fonctionne impec. Juste pour info, toi, dans tes applications, à partir de quelle valeur consière tu qu'il y a risque de doublon ? Moi après quelques essais, j'aurai envie de prendre >0,75
Merci encore.
@+ FoxTrot
celiphane
Messages postés466Date d'inscriptionsamedi 16 février 2002StatutMembreDernière intervention20 avril 2007 12 avril 2005 à 00:25
Pour info, la mise en page du site à bouffer la plupart de mes indentations ;-)
Ne me le reprochez pas, c'est pas de ma faute ! Voir l'archive comme preuve !
1 sept. 2010 à 20:19
je vois que ton post date de très longtemps. Om me propose d'utiliser ta macro dans une recherche de doublons sur un fichier qui doit contenir à terme 33000 lignes qui correspondent à des noms-prénoms-date de naissance et autres. j'ai déja créer la chaine de caractères à comparer.
Comment penses-tu que l'on pourrais adapter ta macro ou est-il réaliste de l'tuliser vu qu'il devrait calculer environ 500 millions de taux et les ressortir.
Merci de pourvoir me répondre si possible.
Merci d'avance
19 avril 2005 à 08:22
j'aimerais bien implémenter cette fonction en C++ car c'est exactement ce que j'ai besoin. Si tu sais où je pourrais trouver le code déja fait ce serait cool, sinon j'aimerais bien avoir le pseudo code de ta fonction car le VB c'est pas ma branche. Connais-tu la méthode Oliver93, celle utilisée pour la fonction similar_text() de php et qui permet de trouver un pourcentage de similitude entre 2 chaînes de caractères?
Merci
@+
14 avril 2005 à 00:18
;-)
Ici, c'est pour comparer le pourcentage de similitude entre 2 chaines de caractères lol
Enfin, je suis content pour toi que tu ais trouvé ton bonheur...
@+
Celiphane
14 avril 2005 à 00:05
apres qq modif ça me convient tres bien
ce que g trouver:
http://www.vbfrance.com/code.aspx?ID=5917
13 avril 2005 à 23:30
nan c'est pas fait pour les images. <-(
Encore que, avec un tout petit peu d'effort, en transformant les images en 256 couleurs, en mettant chaque octets de l'une dans le tableau b1 et pareil pour l'autre dans b2,
on puisse peut-être obtenir un pourcentage de ressemblance entre les 2 images... à essayer... personnellement je le ferais facilement mais j'en ai pas le temps... ni l'envie, ni le besoin d'ailleurs (ce qui concorde peut-être avec le fait que j'ai pas le temps ?)
@+
Celiphane
13 avril 2005 à 22:34
j'ai essayer de comparer des images, et non ça ne fonctionne pas .
qq serait comment faire ???
Merci pour la source c nickel !!
12 avril 2005 à 21:13
Bravo.
12 avril 2005 à 17:44
En effet, un bon complément serait les homophonies ("o" et "au") et les abréviations.
Je suis un newbie, mais je vais essayer pour quelques homophonies.
A plus
12 avril 2005 à 15:10
oui, cette valeur (0.75) me semble correcte.
En fait, selon les champs en présence (nom, prénom, adresse, ville) j'applique à chaque champ une valeur différente (j'oscille entre 0.6 pour être souple sur le nom, si toutefois j'ai d'autres champs sur lesquels je pourrais être plus sévêre, allant jusqu'à 0.85 : ainsi, je peux être léger sur le nom et trancher définitivement grâce au prénom, ou à la ville etc).
Parmi les pièges aussi, faut penser au doublon genre :
"Pr Martin" et "Professeur Martin"
"M. Martin" et "Monsieur Martin"
qui sont de vrais doublons, mais pas si facile à reconnaître pour une machine !
C'est vrai que ce n'est pas LA solution clé en main pour dédoublonner, mais tout de même un sacré outil à exploiter dans ce sens... C'est ensuite au développeur de jouer d'astuces (genre sur une comparaison, ne comparer que le début, puis que la fin des chaînes... etc...)
@+
Celiphane
12 avril 2005 à 12:06
Merci encore.
@+ FoxTrot
12 avril 2005 à 00:25
Ne me le reprochez pas, c'est pas de ma faute ! Voir l'archive comme preuve !
@+
Celiphane