Pourcentage de similarité

BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009 - 29 janv. 2009 à 01:18
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009 - 2 févr. 2009 à 18:13
Bonjour à tous :)

Je cherche un snippet capable de calculer le pourcentage de similarité entre la réponse d'un joueur et une réponse enregistrée, pour un robot de jeu.
Exemple, si $1 <gras>Sitron et %Rep Citron</gras>, que ce snippet puisse m'indiquer que la réponse proposée est similaire à XX% à celle enregistrée afin que je puisse valider certaines incorrections dans de longues questions.

J'avais pensé à un while mais c'est un peu lourd, je pense que ça doit être possible avec un $regex mais je ne sais pas du tout les utiliser, je fais donc appel à votre aide !

Merci d'avance :)

14 réponses

cs_wims Messages postés 2466 Date d'inscription vendredi 23 juillet 2004 Statut Membre Dernière intervention 1 août 2010 1
29 janv. 2009 à 17:04
J'ai fait qcch qui pourra t'aider, mais qui selon peut amené a p-e des problèmes (pour l'utilisation que tu en aura en tout cas).Je l'ai fait avec un $regsubex, parce que tu as demandé qqch du style, mais sache que ça rend le code bien plus compliqué qu'avec une while, surtout sur une ligne.
alias sim_p var %1 $1, %2 $2 ,%r $regsubex($str(.,$len(%1)),/(.)/gS,$iif($mid(%1,\n,1)  $mid(%2,\n,1),1,0)) ,%c $count(%r,1) | return $calc(%c * 100 / $len(%1))

$sim_p(Sitron,citron) = 83.333333

$sim_p(okooo,ok) = 40
(ici ça peut être p-e problematique, en terme de chaine de caractère c'est juste, mais pour un quizz, le mec a dis la réponse quand même...)

$sim_p(ceci est un test,ceci est un test) = 100

Pour le code, les variables %1 et %2 ne sont pas inutile.
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
29 janv. 2009 à 17:27
Salut wimps, merci beaucoup pour ta réponse :)

Je ne suis pas chez moi avant 2 jours mais j'ai testé sur un mIRC vierge et ça semble bien marcher ! L'utilité serait surtout pour des réponses longues de plusieurs mots, bien que le fait d'oublier un mot donne un pourcentage de similitude très bas, peut-être trop pour être utilisé comme je le pensais

$sim_p(voici réponse,voici ma réponse) = 46.153846

Pour ce qui est du while je l'ai écarté parce que je pense que le calcul serait un brin plus long pour le code et c'est un jeu qui effectue déjà plein de calculs simultanés, maintenant je pense peut-être ça à tord :x
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
29 janv. 2009 à 17:35
Arf pour d'autres éléments ça pose problème

$sim_p(en amérique,l'amérique) = 0
$sim_p(amérique,l'amérique) = 0

Ca risque de coincer pour pas mal de choses :s
0
cs_wims Messages postés 2466 Date d'inscription vendredi 23 juillet 2004 Statut Membre Dernière intervention 1 août 2010 1
29 janv. 2009 à 17:42
Non, en soit le $regsubex est bien plus rapide même :)

$sim_p(voici réponse,voici ma réponse) = 46.153846

c'est ce que je disais, regarde :

v  o   i   c   i   ' '   r   é  p  o  n  s  e
v  o   i   c   i   ' '  m  a  ' '  r  é  p  o  n  s  e
1  1  1   1  1   1   0  0  0  0  0  0  0  0  0

ça fait une compaison caractère par caractère, donc là,il y a 6 '1' et 9 '0', sachant que compte le nombre de 1.
c'est pas juste le mot 'ma' qui manque mais bien tout le reste de la chaine qui ne correspond plus.
C'est pour ça qu'il faudrait changer de methode, tu voudrais p-e le pourcentage au niveau des mots ?
le code n'en sera que plus court =)
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
cs_wims Messages postés 2466 Date d'inscription vendredi 23 juillet 2004 Statut Membre Dernière intervention 1 août 2010 1
29 janv. 2009 à 17:44
Hum mon exemple passe mal, mais oui pour ton autre exemple avec l'amérique, il faudrait bien faire mot par mot, en considérant que l'amérique = 2 mot (remplacement les ' par des espace)
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
29 janv. 2009 à 18:04
Alors oui je pense que ça serait mieux mot par mot, ça éviterait la trop forte baisse en cas d'oubli d'un petit mot :)

Après oui il faudra considérer 2 mots pour mon exemple précédent :x
0
cs_wims Messages postés 2466 Date d'inscription vendredi 23 juillet 2004 Statut Membre Dernière intervention 1 août 2010 1
29 janv. 2009 à 19:22
J'ai commencé a faire un truc mais je me rend compte qu'il peut y avoir trop de cas, sans avoir plus de détails sur comment tu veux que ça detecte ou pas je veux pas commencé un truc long et chiant si ça ne marchera pas.
J'ai ça :

alias sim_p {
 var %1 $regsubex($1,/'/Sg,$chr(32)) ,%2 $regsubex($2,/'/Sg,$chr(32))  var %r $regsubex($str(.,$numtok(%2,32)),/(.)/gS,$iif($gettok(%1,\n,32) $gettok(%2,\n,32),1,0)) ,%c $count(%r,1)
  return $calc(%c * 100 / $numtok(%2,32))
}

Pour :
$sim_p(en amérique,l'amérique) = 50

si je remplace le ' par un espace j'ai bien "en" comparé a "l" et amérique a amérique = 50%, mais du coup :

$sim_p(amérique,l'amérique) = 0
parce que on compare "l" a amérique et $null a amérique
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
29 janv. 2009 à 22:55
Hum c'est vrai que ça a l'air encore plus difficile que j'imaginais, il semble impossible de pouvoir gérer en même temps une éventuelle absence de mot et un simple mot mal orthographié mais dont la réponse est sencée être bonne, comme dans l'exemple de Sitron et Citron :x

Je pensais avant tout me servir de ce snippet dans une case de quizz et une autre de contrepèterie, nécessitant pour chacune des 2 une réponse exactement correcte au mot et à la terminaison près (en dehors des accents pour lequel il y a un $replace), sur des phrases parfois longue d'une douzaine de mots, nombreux sont les joueurs qui échouent à cause d'un mot de liaison oublié ou d'une faute de grammaire (ranger / rangé)

J'ai pensé à ce système de pourcentage de similitude depuis longtemps mais je ne savais même pas par où commencer et ça semble effectivement bien difficile à mettre en place :s
0
cs_wims Messages postés 2466 Date d'inscription vendredi 23 juillet 2004 Statut Membre Dernière intervention 1 août 2010 1
29 janv. 2009 à 22:59
Pas forcément mais il faut que tu définisse a l'avance qu'est ce qui va être compté comme valide.
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
29 janv. 2009 à 23:11
Une erreur grammaticale, un mot mal ortographié... mais si je dois faire une sorte de db de ce qui doit être accepté, ça sera pas représentatif
0
cs_wims Messages postés 2466 Date d'inscription vendredi 23 juillet 2004 Statut Membre Dernière intervention 1 août 2010 1
30 janv. 2009 à 00:06
c'est impossible, ça veux dire qu'il faudrait connaitre l'orthographe de chaque mot, ce qui est possible c'est d'omettre certain truc
comme les articles style "le, la, les, l' " et les mots de liaisons
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
30 janv. 2009 à 00:13
Oui effectivement, mais c'est vrai que ça s'éloigne de l'objectif principal :s
0
cs_tofu Messages postés 1726 Date d'inscription vendredi 12 septembre 2003 Statut Membre Dernière intervention 13 juin 2009 1
2 févr. 2009 à 12:51
Et ce ne serait pas possible de "zapper" les mots de liaison, et de ne s'attarder que sur les mots principaux de la chaîne?


Exemple: 


La réponse recherchée serait du type "En amérique". Donc le mot
principal à trouver est "amérique". A partir de là, le test
d'équivalence ne se ferait que sur ce mot.


- chaîne1: "En amérique"

- chaîne2: "L'amérique"


Le mot considéré ne serait que "amérique". De fait, la comparaison se
ferait uniquement sur ce mot.

Ce n'est qu'une idée lancée comme ça, je ne sais pas si c'est réalisable (enfin si, car tout est réalisable, mais de façon simple) tel quel.
0
BSmax Messages postés 50 Date d'inscription dimanche 10 août 2003 Statut Membre Dernière intervention 28 mars 2009
2 févr. 2009 à 18:13
Hum ce n'est peut-être pas idiot ça :p
0