Pourcentage de similarité

Question

Bonjour à tous :) Je cherche un snippet capable de calculer le pourcentage de similarité entre la réponse d'un joueur et une réponse enregistrée, pour un robot de jeu. Exemple, si $1 Sitron et %Rep Citron, que ce snippet puisse m'indiquer que la réponse proposée est similaire à XX% à celle enregistrée afin que je puisse valider certaines incorrections dans de longues questions. J'avais pensé à un while mais c'est un peu lourd, je pense que ça doit être possible avec un $regex mais je ne sais pas du tout les utiliser, je fais donc appel à votre aide ! Merci d'avance :)

cs_wims · Answer

J'ai fait qcch qui pourra t'aider, mais qui selon peut amené a p-e des problèmes (pour l'utilisation que tu en aura en tout cas).Je l'ai fait avec un $regsubex, parce que tu as demandé qqch du style, mais sache que ça rend le code bien plus compliqué qu'avec une while, surtout sur une ligne.
alias sim_p var %1 $1, %2 $2 ,%r $regsubex($str(.,$len(%1)),/(.)/gS,$iif($mid(%1,
,1)  $mid(%2,
,1),1,0)) ,%c $count(%r,1) | return $calc(%c * 100 / $len(%1)) 

$sim_p(Sitron,citron) = 83.333333

$sim_p(okooo,ok) = 40
(ici ça peut être p-e problematique, en terme de chaine de caractère c'est juste, mais pour un quizz, le mec a dis la réponse quand même...)

$sim_p(ceci est un test,ceci est un test) = 100

Pour le code, les variables %1 et %2 ne sont pas inutile.

BSmax · Answer

Salut wimps, merci beaucoup pour ta réponse :)

Je ne suis pas chez moi avant 2 jours mais j'ai testé sur un mIRC vierge et ça semble bien marcher ! L'utilité serait surtout pour des réponses longues de plusieurs mots, bien que le fait d'oublier un mot donne un pourcentage de similitude très bas, peut-être trop pour être utilisé comme je le pensais

$sim_p(voici réponse,voici ma réponse) = 46.153846

Pour ce qui est du while je l'ai écarté parce que je pense que le calcul serait un brin plus long pour le code et c'est un jeu qui effectue déjà plein de calculs simultanés, maintenant je pense peut-être ça à tord :x

BSmax · Answer

Arf pour d'autres éléments ça pose problème

$sim_p(en amérique,l'amérique) = 0
$sim_p(amérique,l'amérique) = 0

Ca risque de coincer pour pas mal de choses :s

cs_wims · Answer

Non, en soit le $regsubex est bien plus rapide même :)

$sim_p(voici réponse,voici ma réponse) = 46.153846

c'est ce que je disais, regarde :

v  o   i   c   i   ' '   r   é  p  o  n  s  e
v  o   i   c   i   ' '  m  a  ' '  r  é  p  o  n  s  e
1  1  1   1  1   1   0  0  0  0  0  0  0  0  0

ça fait une compaison caractère par caractère, donc là,il y a 6 '1' et 9 '0', sachant que compte le nombre de 1.
c'est pas juste le mot 'ma' qui manque mais bien tout le reste de la chaine qui ne correspond plus.
C'est pour ça qu'il faudrait changer de methode, tu voudrais p-e le pourcentage au niveau des mots ?
le code n'en sera que plus court =)

cs_wims · Answer

Hum mon exemple passe mal, mais oui pour ton autre exemple avec l'amérique, il faudrait bien faire mot par mot, en considérant que l'amérique = 2 mot (remplacement les ' par des espace)

BSmax · Answer

Alors oui je pense que ça serait mieux mot par mot, ça éviterait la trop forte baisse en cas d'oubli d'un petit mot :)

Après oui il faudra considérer 2 mots pour mon exemple précédent :x

cs_wims · Answer

J'ai commencé a faire un truc mais je me rend compte qu'il peut y avoir trop de cas, sans avoir plus de détails sur comment tu veux que ça detecte ou pas je veux pas commencé un truc long et chiant si ça ne marchera pas.
J'ai ça :

alias sim_p {
 var %1 $regsubex($1,/'/Sg,$chr(32)) ,%2 $regsubex($2,/'/Sg,$chr(32))  var %r $regsubex($str(.,$numtok(%2,32)),/(.)/gS,$iif($gettok(%1,
,32) $gettok(%2,
,32),1,0)) ,%c $count(%r,1) 
  return $calc(%c * 100 / $numtok(%2,32)) 
}

Pour :
$sim_p(en amérique,l'amérique) = 50

si je remplace le ' par un espace j'ai bien "en" comparé a "l" et amérique a amérique = 50%, mais du coup :

$sim_p(amérique,l'amérique) = 0
parce que on compare "l" a amérique et $null a amérique

BSmax · Answer

Hum c'est vrai que ça a l'air encore plus difficile que j'imaginais, il semble impossible de pouvoir gérer en même temps une éventuelle absence de mot et un simple mot mal orthographié mais dont la réponse est sencée être bonne, comme dans l'exemple de Sitron et Citron :x

Je pensais avant tout me servir de ce snippet dans une case de quizz et une autre de contrepèterie, nécessitant pour chacune des 2 une réponse exactement correcte au mot et à la terminaison près (en dehors des accents pour lequel il y a un $replace), sur des phrases parfois longue d'une douzaine de mots, nombreux sont les joueurs qui échouent à cause d'un mot de liaison oublié ou d'une faute de grammaire (ranger / rangé)

J'ai pensé à ce système de pourcentage de similitude depuis longtemps mais je ne savais même pas par où commencer et ça semble effectivement bien difficile à mettre en place :s

cs_wims · Answer

Pas forcément mais il faut que tu définisse a l'avance qu'est ce qui va être compté comme valide.

BSmax · Answer

Une erreur grammaticale, un mot mal ortographié... mais si je dois faire une sorte de db de ce qui doit être accepté, ça sera pas représentatif

cs_wims · Answer

c'est impossible, ça veux dire qu'il faudrait connaitre l'orthographe de chaque mot, ce qui est possible c'est d'omettre certain truc
comme les articles style "le, la, les, l' " et les mots de liaisons

BSmax · Answer

Oui effectivement, mais c'est vrai que ça s'éloigne de l'objectif principal :s

cs_tofu · Answer

Et ce ne serait pas possible de "zapper" les mots de liaison, et de ne s'attarder que sur les mots principaux de la chaîne?


Exemple:  


La réponse recherchée serait du type "En amérique". Donc le mot
principal à trouver est "amérique". A partir de là, le test
d'équivalence ne se ferait que sur ce mot.


- chaîne1: "En amérique"

- chaîne2: "L'amérique"


Le mot considéré ne serait que "amérique". De fait, la comparaison se
ferait uniquement sur ce mot.

Ce n'est qu'une idée lancée comme ça, je ne sais pas si c'est réalisable (enfin si, car tout est réalisable, mais de façon simple) tel quel.

BSmax · Answer

Hum ce n'est peut-être pas idiot ça :p

Pourcentage de similarité

14 réponses

Votre réponse

Discussions similaires