epablo
Messages postés1Date d'inscriptionjeudi 6 décembre 2007StatutMembreDernière intervention 6 décembre 2007
-
6 déc. 2007 à 22:38
cs_lacomm
Messages postés298Date d'inscriptionlundi 14 juin 2004StatutMembreDernière intervention 5 juillet 2013
-
7 déc. 2007 à 14:50
Bonjour à tous et toutes,
Je me suis lancé dans une opération que je croyais simple mais qui est en fait très complexe. (que je trouve cpx)
J'ai des listes representant les mêmes clients mais pas orthographiés de la même facon.
Il n'est pas certain qu'il y ait une concordance pour chaque occurence.
Je cherche un algo (une marco) qui me permettent de trouver les concordances les plus probables.
Si qqu'un(e) à déjà résolu un pb similaire ou est simplement plus malin(e) , je suis preneur de vos astuces.
J'utilise excel et VB.
Voici un exemple avec 2 listes
Avant
ColA ColB
Liste1 Liste2
Mairie de Paris Bours Imobilier
Durand Immobilier Entreprise ROUX vélos
Etablissement ROUX vélos Immobilier Durand
Bourse Immobilier Ville de Paris
Ce que je cherche c'est un algo qui fasse les liens suivants
Après
Liste1Liste2 Mairie de Paris ---> Ville de Paris
Durand Immobilier ---> Immobilier Durand
Etablissement ROUX vélos --> Entreprise ROUX vélos
Bourse Immobilier ---> Bours Imobilier
Le problème est insoluble qd il ya 4 ou n listes à comparer.
Merci de votre aide
e-pablo
"Ce n'est pas parce que les chose sont difficiles que nous n'osons pas, c'est parce que nous n'osons pas que les choses sont difficiles."
A voir également:
Comparaison de liste. Chercher la concordance la plus probable.
jmfmarques
Messages postés7666Date d'inscriptionsamedi 5 novembre 2005StatutMembreDernière intervention22 août 201427 7 déc. 2007 à 07:58
Bonjour,
Juste une question (qui est elle-même une réponse) :
A quoi correspondrait donc "Bourse immobilière de Paris" ?
à "Ville de Paris" ou à "Bourse Immobilier" ?
Le réponse est évidente pour l'esprit humain, qui saura déterminer les mots les plus significatifs, presque par instinct.
La machine, par contre, n'a ni instinct, ni pensée, ni donc d'états d'âme... et si tu veux qu'elle fasse le même travail que
celui que ferait le cerveau humain, il faudrait que tu lui inculques (dictionnaires, bases de données, raisonnements, etc...)
tout ce que tu possèdes en toi (connaissances, appréciations, etc...).
jmfmarques
Messages postés7666Date d'inscriptionsamedi 5 novembre 2005StatutMembreDernière intervention22 août 201427 7 déc. 2007 à 08:01
Ce que tu cherches à faire est déjà fort compliqué lorsqu'il s'agit, à l'aide de mots clés et de thésaurus, de classifier des documents dont le texte est long.
C'est quasiment impossible à l'aide de textes qui ne seraient que des titres
cs_lacomm
Messages postés298Date d'inscriptionlundi 14 juin 2004StatutMembreDernière intervention 5 juillet 20131 7 déc. 2007 à 14:50
Salut,
Ca dépend aussi si tes listes sont finies et spécifiques: si tu n'as qu'un immobilier Durand etc. Il y a pas mal de littérature sur l'extraction d'informations de publications économico-légales d'entreprises. L'Information Extraction est un domaine du Natural Language Processing (NLP) ou Traitement Automatique de la Langue (TAL). C'est clair que c'est plus qu'une astuce dont tu as besoin: fais une recherche sur ces mots-clés dans google et tu verras l'étendue du problème.