BSmax
Messages postés50Date d'inscriptiondimanche 10 août 2003StatutMembreDernière intervention28 mars 2009
-
29 janv. 2009 à 01:18
BSmax
Messages postés50Date d'inscriptiondimanche 10 août 2003StatutMembreDernière intervention28 mars 2009
-
2 févr. 2009 à 18:13
Bonjour à tous :)
Je cherche un snippet capable de calculer le pourcentage de similarité entre la réponse d'un joueur et une réponse enregistrée, pour un robot de jeu.
Exemple, si $1 <gras>Sitron et %Rep Citron</gras>, que ce snippet puisse m'indiquer que la réponse proposée est similaire à XX% à celle enregistrée afin que je puisse valider certaines incorrections dans de longues questions.
J'avais pensé à un while mais c'est un peu lourd, je pense que ça doit être possible avec un $regex mais je ne sais pas du tout les utiliser, je fais donc appel à votre aide !
cs_wims
Messages postés2466Date d'inscriptionvendredi 23 juillet 2004StatutMembreDernière intervention 1 août 20101 29 janv. 2009 à 17:04
J'ai fait qcch qui pourra t'aider, mais qui selon peut amené a p-e des problèmes (pour l'utilisation que tu en aura en tout cas).Je l'ai fait avec un $regsubex, parce que tu as demandé qqch du style, mais sache que ça rend le code bien plus compliqué qu'avec une while, surtout sur une ligne.
alias sim_p var %1 $1, %2 $2 ,%r $regsubex($str(.,$len(%1)),/(.)/gS,$iif($mid(%1,\n,1) $mid(%2,\n,1),1,0)) ,%c $count(%r,1) | return $calc(%c * 100 / $len(%1))
$sim_p(Sitron,citron) = 83.333333
$sim_p(okooo,ok) = 40
(ici ça peut être p-e problematique, en terme de chaine de caractère c'est juste, mais pour un quizz, le mec a dis la réponse quand même...)
$sim_p(ceci est un test,ceci est un test) = 100
Pour le code, les variables %1 et %2 ne sont pas inutile.
BSmax
Messages postés50Date d'inscriptiondimanche 10 août 2003StatutMembreDernière intervention28 mars 2009 29 janv. 2009 à 17:27
Salut wimps, merci beaucoup pour ta réponse :)
Je ne suis pas chez moi avant 2 jours mais j'ai testé sur un mIRC vierge et ça semble bien marcher ! L'utilité serait surtout pour des réponses longues de plusieurs mots, bien que le fait d'oublier un mot donne un pourcentage de similitude très bas, peut-être trop pour être utilisé comme je le pensais
$sim_p(voici réponse,voici ma réponse) = 46.153846
Pour ce qui est du while je l'ai écarté parce que je pense que le calcul serait un brin plus long pour le code et c'est un jeu qui effectue déjà plein de calculs simultanés, maintenant je pense peut-être ça à tord :x
cs_wims
Messages postés2466Date d'inscriptionvendredi 23 juillet 2004StatutMembreDernière intervention 1 août 20101 29 janv. 2009 à 17:42
Non, en soit le $regsubex est bien plus rapide même :)
$sim_p(voici réponse,voici ma réponse) = 46.153846
c'est ce que je disais, regarde :
v o i c i ' ' r é p o n s e
v o i c i ' ' m a ' ' r é p o n s e
1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
ça fait une compaison caractère par caractère, donc là,il y a 6 '1' et 9 '0', sachant que compte le nombre de 1.
c'est pas juste le mot 'ma' qui manque mais bien tout le reste de la chaine qui ne correspond plus.
C'est pour ça qu'il faudrait changer de methode, tu voudrais p-e le pourcentage au niveau des mots ?
le code n'en sera que plus court =)
Vous n’avez pas trouvé la réponse que vous recherchez ?
cs_wims
Messages postés2466Date d'inscriptionvendredi 23 juillet 2004StatutMembreDernière intervention 1 août 20101 29 janv. 2009 à 17:44
Hum mon exemple passe mal, mais oui pour ton autre exemple avec l'amérique, il faudrait bien faire mot par mot, en considérant que l'amérique = 2 mot (remplacement les ' par des espace)
cs_wims
Messages postés2466Date d'inscriptionvendredi 23 juillet 2004StatutMembreDernière intervention 1 août 20101 29 janv. 2009 à 19:22
J'ai commencé a faire un truc mais je me rend compte qu'il peut y avoir trop de cas, sans avoir plus de détails sur comment tu veux que ça detecte ou pas je veux pas commencé un truc long et chiant si ça ne marchera pas.
J'ai ça :
alias sim_p {
var %1 $regsubex($1,/'/Sg,$chr(32)) ,%2 $regsubex($2,/'/Sg,$chr(32)) var %r $regsubex($str(.,$numtok(%2,32)),/(.)/gS,$iif($gettok(%1,\n,32) $gettok(%2,\n,32),1,0)) ,%c $count(%r,1)
return $calc(%c * 100 / $numtok(%2,32))
}
Pour :
$sim_p(en amérique,l'amérique) = 50
si je remplace le ' par un espace j'ai bien "en" comparé a "l" et amérique a amérique = 50%, mais du coup :
$sim_p(amérique,l'amérique) = 0
parce que on compare "l" a amérique et $null a amérique
BSmax
Messages postés50Date d'inscriptiondimanche 10 août 2003StatutMembreDernière intervention28 mars 2009 29 janv. 2009 à 22:55
Hum c'est vrai que ça a l'air encore plus difficile que j'imaginais, il semble impossible de pouvoir gérer en même temps une éventuelle absence de mot et un simple mot mal orthographié mais dont la réponse est sencée être bonne, comme dans l'exemple de Sitron et Citron :x
Je pensais avant tout me servir de ce snippet dans une case de quizz et une autre de contrepèterie, nécessitant pour chacune des 2 une réponse exactement correcte au mot et à la terminaison près (en dehors des accents pour lequel il y a un $replace), sur des phrases parfois longue d'une douzaine de mots, nombreux sont les joueurs qui échouent à cause d'un mot de liaison oublié ou d'une faute de grammaire (ranger / rangé)
J'ai pensé à ce système de pourcentage de similitude depuis longtemps mais je ne savais même pas par où commencer et ça semble effectivement bien difficile à mettre en place :s
cs_wims
Messages postés2466Date d'inscriptionvendredi 23 juillet 2004StatutMembreDernière intervention 1 août 20101 30 janv. 2009 à 00:06
c'est impossible, ça veux dire qu'il faudrait connaitre l'orthographe de chaque mot, ce qui est possible c'est d'omettre certain truc
comme les articles style "le, la, les, l' " et les mots de liaisons
cs_tofu
Messages postés1726Date d'inscriptionvendredi 12 septembre 2003StatutMembreDernière intervention13 juin 20091 2 févr. 2009 à 12:51
Et ce ne serait pas possible de "zapper" les mots de liaison, et de ne s'attarder que sur les mots principaux de la chaîne?
Exemple:
La réponse recherchée serait du type "En amérique". Donc le mot
principal à trouver est "amérique". A partir de là, le test
d'équivalence ne se ferait que sur ce mot.
- chaîne1: "En amérique"
- chaîne2: "L'amérique"
Le mot considéré ne serait que "amérique". De fait, la comparaison se
ferait uniquement sur ce mot.
Ce n'est qu'une idée lancée comme ça, je ne sais pas si c'est réalisable (enfin si, car tout est réalisable, mais de façon simple) tel quel.