]> granicus.if.org Git - libvpx/commitdiff
Reduce required xmm number by one in block_error_fp
authorJingning Han <jingning@google.com>
Wed, 1 Apr 2015 16:19:13 +0000 (09:19 -0700)
committerGerrit Code Review <gerrit@gerrit.golo.chromium.org>
Wed, 1 Apr 2015 19:07:35 +0000 (12:07 -0700)
Use 6 xmms instead of 8.

Change-Id: If976ad85d09191d2fb0565399d690f2869dbbcc7

vp9/encoder/x86/vp9_error_sse2.asm

index 318379777a8db3baa5b8b54e3511ab2e57d26b5d..56373e897c9d2c41bbda1dfe87a6768e96750783 100644 (file)
@@ -78,7 +78,7 @@ cglobal block_error, 3, 3, 8, uqc, dqc, size, ssz
 ;                            intptr_t block_size)
 
 INIT_XMM sse2
-cglobal block_error_fp, 3, 3, 8, uqc, dqc, size
+cglobal block_error_fp, 3, 3, 6, uqc, dqc, size
   pxor      m4, m4                 ; sse accumulator
   pxor      m5, m5                 ; dedicated zero register
   lea     uqcq, [uqcq+sizeq*2]
@@ -96,13 +96,13 @@ cglobal block_error_fp, 3, 3, 8, uqc, dqc, size
   pmaddwd   m0, m0
   pmaddwd   m1, m1
   ; accumulate in 64bit
-  punpckldq m7, m0, m5
+  punpckldq m3, m0, m5
   punpckhdq m0, m5
-  paddq     m4, m7
-  punpckldq m7, m1, m5
+  paddq     m4, m3
+  punpckldq m3, m1, m5
   paddq     m4, m0
   punpckhdq m1, m5
-  paddq     m4, m7
+  paddq     m4, m3
   paddq     m4, m1
   add    sizeq, mmsize
   jl .loop