Instruction optimale ?Résolu

Question

Bonjour;
   Je code un bout d'asm inline sous C++ en utilisant les instructions SSE et des données alignées sur 16 octets.
J'aurais voulu savoir, des deux opérations suivantes, laquelle est la plus rapide, ou si elles sont équivalentes :
MOVDQA xmm1, xmmword ptr[eax];
ADDPS xmm1, xmmword ptr[ebx];
ou bien :
MOVDQA xmm1, xmmword ptr[eax];
MOVDQA xmm2, xmmword ptr[ebx];
ADDPS xmm1, xmm2; 
merci d'avance.

_dune2_ · Accepted Answer

Salut, Tout comme ToutEnMasm, je conseille le test pour ce genre question. J'ai réalisé un prog en C avec asm inline : ========================================= #include #include unsigned int timing_test1[1024]; unsigned int timing_test2[1024]; void *ptr1, *ptr2; char _ptr1[16+16]; char _ptr2[16+16]; inline void test1() { __asm( "mov (%0),%%ebx " "mov (%1),%%ecx " "movdqa (%%ebx),%%xmm1 " "addps (%%ecx),%%xmm1 " :: "m" (ptr1) , "m" (ptr2) : "ebx", "ecx"); } inline void test2() { __asm( "mov (%0),%%ebx " "mov (%1),%%ecx " "movdqa (%%ebx),%%xmm1 " "movdqa (%%ecx),%%xmm2 " "addps %%xmm2,%%xmm1 " :: "m" (ptr1) , "m" (ptr2) : "ebx", "ecx"); } int main(int argc, char **argv) { int loop; ptr1 = (void *)((unsigned long)(_ptr1+15)&(~0x0F)); ptr2 = (void *)((unsigned long)(_ptr2+15)&(~0x0F)); unsigned int result_test1=0, result_test2=0; unsigned int debut,fin; // boucles de test ... __asm__ volatile ("rdtsc":"=A" (debut)); for(loop=0;loop<4096;loop++) test1(); __asm__ volatile ("rdtsc":"=A" (fin)); result_test1 = ((debut

ToutEnMasm · Answer

Salut,
Pour ça il faut utiliser un compteur.

                          ToutEnMasm


.586


;------------------- constantes ---------------------------


ITER EQU 1 ; number of iterations


OVERHEAD EQU 15 ; 15 for PPlain, 17 for PMMX 


;************ Data segment: ********************


ALIGN 4


COUNTER DD 0 ; loop counter


TICS DD 0 ; temporary storage of clock


RESULTLIST DD ITER DUP (0) ; list of test results





;---------------------- code -----------------------------------


;calcul du temps


BEGIN:


MOV DWORD ptr COUNTER,0 ; reset loop counter


TESTLOOP: ; test loop


;************ Do any initializations here: ********************


FINIT


;************ End of initializations ********************


RDTSC ; read clock counter


MOV TICS,EAX ; save count


CLD ; non-pairable filler


REPEAT 8


NOP ; eight NOP's to avoid shadowing effect


ENDM


;---------------- bloc d'instruction ------------------------


 


;---------- resultat --------------------------


CLC ; non-pairable filler with shadow


RDTSC ; read counter again


SUB EAX,TICS ; compute difference


SUB EAX,OVERHEAD ;15 subtract clocks used by fillers etc.


MOV EDX,COUNTER ; loop counter


MOV [RESULTLIST+EDX],EAX ; store result in table


ADD EDX,TYPE RESULTLIST ; increment counter


MOV COUNTER,EDX ; store counter


CMP EDX,ITER * (TYPE RESULTLIST)


JB @F ; repeat ITER times


jmp AfficheITER


@@:


jmp TESTLOOP





;affichage


AfficheITER:


mov CPT,ITER


mov ebx,0


mov al,0


mov byte ptr [ZoneMessagesErreurs],al





.while(CPT)


mov edx,[RESULTLIST+ebx*4]


invoke dwtoa,edx,addr buffer


invoke lstrcat,addr ZoneMessagesErreurs,addr buffer


invoke lstrcat,addr ZoneMessagesErreurs,SADR(" ")


inc ebx


dec CPT


.endw


invoke MessageBox,NULL,addr ZoneMessagesErreurs,addr buffer,MB_OK

cs_juju12 · Answer

Merci pour ces réponses

Instruction optimale ?

3 réponses

Votre réponse

Discussions similaires