Comparaison de liste. Chercher la concordance la plus probable.

Résolu
epablo Messages postés 1 Date d'inscription jeudi 6 décembre 2007 Statut Membre Dernière intervention 6 décembre 2007 - 6 déc. 2007 à 22:38
cs_lacomm Messages postés 298 Date d'inscription lundi 14 juin 2004 Statut Membre Dernière intervention 5 juillet 2013 - 7 déc. 2007 à 14:50
Bonjour à tous et toutes,

Je me suis lancé dans une opération que je croyais simple mais qui est en fait très complexe. (que je trouve cpx)
J'ai des listes representant les mêmes clients mais pas orthographiés de la même facon.
Il n'est pas certain qu'il y ait une concordance pour chaque occurence.
Je cherche un algo (une marco) qui me permettent de trouver les concordances les plus probables.

Si qqu'un(e) à déjà résolu un pb similaire ou est simplement plus malin(e) , je suis preneur de vos astuces.
J'utilise excel et VB.
Voici un exemple avec 2 listes
Avant
ColA                                                  ColB
Liste1                                                Liste2
Mairie de Paris                                    Bours Imobilier
Durand Immobilier                               Entreprise ROUX  vélos
Etablissement ROUX  vélos                 Immobilier Durand
Bourse Immobilier                                Ville de Paris

Ce que je cherche c'est un algo qui fasse les liens suivants
Après
Liste1                                                Liste2       
Mairie de Paris                    --->             Ville de Paris
Durand Immobilier               --->             Immobilier Durand
Etablissement ROUX  vélos  -->             Entreprise ROUX  vélos
Bourse Immobilier                --->             Bours Imobilier

Le problème est insoluble qd il ya 4 ou n listes à comparer.

Merci de votre aide

e-pablo
"Ce n'est pas parce que les chose sont difficiles que nous n'osons pas, c'est parce que nous n'osons pas que les choses sont difficiles."
A voir également:

3 réponses

jmfmarques Messages postés 7666 Date d'inscription samedi 5 novembre 2005 Statut Membre Dernière intervention 22 août 2014 27
7 déc. 2007 à 07:58
Bonjour,

Juste une question (qui est elle-même une réponse) :

A quoi correspondrait donc "Bourse immobilière de Paris" ?
à "Ville de Paris" ou à "Bourse Immobilier" ?

Le réponse est évidente pour l'esprit humain, qui saura déterminer les mots les plus significatifs, presque par instinct.
La machine, par contre, n'a ni instinct, ni pensée, ni donc d'états d'âme... et si tu veux qu'elle fasse le même travail que
celui que ferait le cerveau humain, il faudrait que tu lui inculques (dictionnaires, bases de données, raisonnements, etc...)
tout ce que tu possèdes en toi (connaissances, appréciations, etc...).

Bon courage.
3
jmfmarques Messages postés 7666 Date d'inscription samedi 5 novembre 2005 Statut Membre Dernière intervention 22 août 2014 27
7 déc. 2007 à 08:01
Ce que tu cherches à faire est déjà fort compliqué lorsqu'il s'agit, à l'aide de mots clés et de thésaurus, de classifier des documents dont le texte est long.

C'est quasiment impossible à l'aide de textes qui ne seraient que des titres
3
cs_lacomm Messages postés 298 Date d'inscription lundi 14 juin 2004 Statut Membre Dernière intervention 5 juillet 2013 1
7 déc. 2007 à 14:50
Salut,
Ca dépend aussi si tes listes sont finies et spécifiques: si tu n'as qu'un immobilier Durand etc. Il y a pas mal de littérature sur l'extraction d'informations de publications économico-légales d'entreprises.  L'Information Extraction est un domaine du Natural Language Processing (NLP) ou Traitement Automatique de la Langue (TAL). C'est clair que c'est plus qu'une astuce dont tu as besoin: fais une recherche sur ces mots-clés dans google et tu verras l'étendue du problème.

Bon courage
3
Rejoignez-nous