x86: AVX2 high bit-depth pixel_sad

author Henrik Gramner <henrik@gramner.com>

Tue, 16 Apr 2013 21:27:39 +0000 (23:27 +0200)

committer Fiona Glaser <fiona@x264.com>

Tue, 23 Apr 2013 21:36:35 +0000 (14:36 -0700)
author Henrik Gramner <henrik@gramner.com>
Tue, 16 Apr 2013 21:27:39 +0000 (23:27 +0200)
committer Fiona Glaser <fiona@x264.com>
Tue, 23 Apr 2013 21:36:35 +0000 (14:36 -0700)
diff --git a/common/pixel.c b/common/pixel.c

index 7d5b0fe947fc0feb03a0096619f330c5aa01aecd..a9c5fa28970fdaa9107165858f998392a3f11ae0 100644 (file)
--- a/common/pixel.c
+++ b/common/pixel.c
@@ -987,6 +987,11 @@ void x264_pixel_init( int cpu, x264_pixel_function_t *pixf )
          pixf->vsad = x264_pixel_vsad_xop;
          pixf->asd8 = x264_pixel_asd8_xop;
      }
+    if( cpu&X264_CPU_AVX2 )
+    {
+        INIT2( sad, _avx2 );
+        INIT2_NAME( sad_aligned, sad, _avx2 );
+    }
  #endif // HAVE_MMX
  #else // !HIGH_BIT_DEPTH
  #if HAVE_MMX
diff --git a/common/x86/pixel.h b/common/x86/pixel.h

index e888fb0af83979e472063fdbc82dcafa2ec7c3d6..ad9d051df4aff9bde2b48dbc1c28957dec9342ee 100644 (file)
--- a/common/x86/pixel.h
+++ b/common/x86/pixel.h
@@ -52,6 +52,8 @@ DECL_X1( sad, sse3 )
  DECL_X1( sad, sse2_aligned )
  DECL_X1( sad, ssse3 )
  DECL_X1( sad, ssse3_aligned )
+DECL_X1( sad, avx2 )
+DECL_X1( sad, avx2_aligned )
  DECL_X4( sad, mmx2 )
  DECL_X4( sad, sse2 )
  DECL_X4( sad, sse3 )
diff --git a/common/x86/sad16-a.asm b/common/x86/sad16-a.asm

index 8e3dba7b0dea405d183ee5f1c35c27bd587a29ad..921c5fff8157a7adffddb1daba51f85c0c4a5c2a 100644 (file)
--- a/common/x86/sad16-a.asm
+++ b/common/x86/sad16-a.asm
@@ -90,11 +90,18 @@ cextern pw_8
  ; int pixel_sad_NxM( uint16_t *, intptr_t, uint16_t *, intptr_t )
  ;-----------------------------------------------------------------------------
  %macro SAD_MMX 3
-cglobal pixel_sad_%1x%2, 4,4
+cglobal pixel_sad_%1x%2, 4,5-(%2&4/4)
      pxor    m0, m0
-%rep %2/%3
+%if %2 == 4
      SAD_INC_%3x%1P_MMX
-%endrep
+    SAD_INC_%3x%1P_MMX
+%else
+    mov    r4d, %2/%3
+.loop:
+    SAD_INC_%3x%1P_MMX
+    dec    r4d
+    jg .loop
+%endif
  %if %1*%2 == 256
      HADDUW  m0, m1
  %else
@@ -120,7 +127,8 @@ SAD_MMX  4,  4, 2
  ; SAD XMM
  ;=============================================================================
  
-%macro SAD_INC_2x16P_XMM 0
+%macro SAD_INC_2ROW 1
+%if 2*%1 > mmsize
      movu    m1, [r2+ 0]
      movu    m2, [r2+16]
      movu    m3, [r2+2*r3+ 0]
@@ -137,9 +145,7 @@ SAD_MMX  4,  4, 2
      paddw   m3, m4
      paddw   m0, m1
      paddw   m0, m3
-%endmacro
-
-%macro SAD_INC_2x8P_XMM 0
+%else
      movu    m1, [r2]
      movu    m2, [r2+2*r3]
      psubw   m1, [r0]
@@ -149,44 +155,58 @@ SAD_MMX  4,  4, 2
      lea     r2, [r2+4*r3]
      paddw   m0, m1
      paddw   m0, m2
+%endif
  %endmacro
  
  ;-----------------------------------------------------------------------------
  ; int pixel_sad_NxM( uint16_t *, intptr_t, uint16_t *, intptr_t )
  ;-----------------------------------------------------------------------------
-%macro SAD_XMM 2
-cglobal pixel_sad_%1x%2, 4,4,8
+%macro SAD 2
+cglobal pixel_sad_%1x%2, 4,5-(%2&4/4),8*(%1/mmsize)
      pxor    m0, m0
-%rep %2/2
-    SAD_INC_2x%1P_XMM
-%endrep
+%if %2 == 4
+    SAD_INC_2ROW %1
+    SAD_INC_2ROW %1
+%else
+    mov    r4d, %2/2
+.loop:
+    SAD_INC_2ROW %1
+    dec    r4d
+    jg .loop
+%endif
      HADDW   m0, m1
-    movd   eax, m0
+    movd   eax, xm0
      RET
  %endmacro
  
  INIT_XMM sse2
-SAD_XMM 16, 16
-SAD_XMM 16,  8
-SAD_XMM  8, 16
-SAD_XMM  8,  8
-SAD_XMM  8,  4
+SAD 16, 16
+SAD 16,  8
+SAD  8, 16
+SAD  8,  8
+SAD  8,  4
  INIT_XMM sse2, aligned
-SAD_XMM 16, 16
-SAD_XMM 16,  8
-SAD_XMM  8, 16
-SAD_XMM  8,  8
+SAD 16, 16
+SAD 16,  8
+SAD  8, 16
+SAD  8,  8
  INIT_XMM ssse3
-SAD_XMM 16, 16
-SAD_XMM 16,  8
-SAD_XMM  8, 16
-SAD_XMM  8,  8
-SAD_XMM  8,  4
+SAD 16, 16
+SAD 16,  8
+SAD  8, 16
+SAD  8,  8
+SAD  8,  4
  INIT_XMM ssse3, aligned
-SAD_XMM 16, 16
-SAD_XMM 16,  8
-SAD_XMM  8, 16
-SAD_XMM  8,  8
+SAD 16, 16
+SAD 16,  8
+SAD  8, 16
+SAD  8,  8
+INIT_YMM avx2
+SAD 16, 16
+SAD 16,  8
+INIT_YMM avx2, aligned
+SAD 16, 16
+SAD 16,  8
  
  ;=============================================================================
  ; SAD x3/x4
author	Henrik Gramner <henrik@gramner.com>
	Tue, 16 Apr 2013 21:27:39 +0000 (23:27 +0200)
committer	Fiona Glaser <fiona@x264.com>
	Tue, 23 Apr 2013 21:36:35 +0000 (14:36 -0700)
common/pixel.c		patch \| blob \| history
common/x86/pixel.h		patch \| blob \| history
common/x86/sad16-a.asm		patch \| blob \| history