]> granicus.if.org Git - libvpx/commitdiff
VSX Version of SAD8xN
authorLuc Trudeau <luc@trud.ca>
Wed, 13 Jun 2018 17:39:04 +0000 (13:39 -0400)
committerLuc Trudeau <luc@trud.ca>
Wed, 13 Jun 2018 19:21:06 +0000 (19:21 +0000)
VSX versions of the SAD functions of width 8.

SADTest Speed Test (POWER8 Model 2.1)
8x4  C time = 68.7 ms (±0.3 ms), VSX time = 31.8 ms (±0.1 ms) [2.2x]
8x8  C time = 55.6 ms (±0.3 ms), VSX time = 18.3 ms (±0.1 ms) [3.0x]
8x16 C time = 46.5 ms (±0.1 ms), VSX time = 15.6 ms (±0.1 ms) [3.0x]

Change-Id: I843f3b34e103b72deeade4a939193d8b53cee460

test/sad_test.cc
vpx_dsp/ppc/sad_vsx.c
vpx_dsp/ppc/types_vsx.h
vpx_dsp/vpx_dsp_rtcd_defs.pl

index 0d6870d5005e340b9b56055908f37164ca45d4c7..cef23e19f3a4acee193841e6cb9a9b40f17f327a 100644 (file)
@@ -1021,6 +1021,9 @@ const SadMxNParam vsx_tests[] = {
   SadMxNParam(16, 32, &vpx_sad16x32_vsx),
   SadMxNParam(16, 16, &vpx_sad16x16_vsx),
   SadMxNParam(16, 8, &vpx_sad16x8_vsx),
+  SadMxNParam(8, 16, &vpx_sad8x16_vsx),
+  SadMxNParam(8, 8, &vpx_sad8x8_vsx),
+  SadMxNParam(8, 4, &vpx_sad8x4_vsx),
 };
 INSTANTIATE_TEST_CASE_P(VSX, SADTest, ::testing::ValuesIn(vsx_tests));
 
index bb49addae179585ee7d0b3476d913bc36e0c3271..b41c05b48d1a08ad7da75bfb17853f33f5f86d29 100644 (file)
   v_sad = vec_sum4s(v_absh, v_sad); \
   v_sad = vec_sum4s(v_absl, v_sad);
 
+#define SAD8(height)                                                     \
+  unsigned int vpx_sad8x##height##_vsx(const uint8_t *a, int a_stride,   \
+                                       const uint8_t *b, int b_stride) { \
+    int y = 0;                                                           \
+    uint8x16_t v_a, v_b, v_abs;                                          \
+    uint32x4_t v_sad = vec_zeros_u32;                                    \
+                                                                         \
+    do {                                                                 \
+      v_a = vec_vsx_ld(0, a);                                            \
+      v_b = vec_vsx_ld(0, b);                                            \
+                                                                         \
+      v_abs = vec_sub(vec_max(v_a, v_b), vec_min(v_a, v_b));             \
+      v_sad = vec_sum4s(v_abs, v_sad);                                   \
+                                                                         \
+      a += a_stride;                                                     \
+      b += b_stride;                                                     \
+      y++;                                                               \
+    } while (y < height);                                                \
+                                                                         \
+    return v_sad[1] + v_sad[0];                                          \
+  }
+
 #define SAD16(height)                                                     \
   unsigned int vpx_sad16x##height##_vsx(const uint8_t *a, int a_stride,   \
                                         const uint8_t *b, int b_stride) { \
     return sad[3] + sad[2] + sad[1] + sad[0];                             \
   }
 
+SAD8(4);
+SAD8(8);
+SAD8(16);
 SAD16(8);
 SAD16(16);
 SAD16(32);
index 803d0377a2235a46e98f92e115bee99f423e303c..81c7b970a8588c24aab8b350f39be0bb7ca8fce7 100644 (file)
@@ -82,6 +82,7 @@ static const int16x8_t vec_ones_s16 = { 1, 1, 1, 1, 1, 1, 1, 1 };
 static const uint16x8_t vec_ones_u16 = { 1, 1, 1, 1, 1, 1, 1, 1 };
 static const uint32x4_t vec_ones_u32 = { 1, 1, 1, 1 };
 static const int32x4_t vec_zeros_s32 = { 0, 0, 0, 0 };
+static const uint32x4_t vec_zeros_u32 = { 0, 0, 0, 0 };
 static const uint16x8_t vec_shift_sign_s16 = { 15, 15, 15, 15, 15, 15, 15, 15 };
 static const uint32x4_t vec_shift_sign_s32 = { 31, 31, 31, 31 };
 static const uint8x16_t vec_perm64 = { 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D,
index f237e5503daf3fe117f1cac7c18ee154a645b9b6..9f3e268cc29daaa90672ca459ddf6abe04dc0477 100644 (file)
@@ -748,13 +748,13 @@ add_proto qw/unsigned int vpx_sad16x8/, "const uint8_t *src_ptr, int src_stride,
 specialize qw/vpx_sad16x8 neon msa sse2 vsx mmi/;
 
 add_proto qw/unsigned int vpx_sad8x16/, "const uint8_t *src_ptr, int src_stride, const uint8_t *ref_ptr, int ref_stride";
-specialize qw/vpx_sad8x16 neon msa sse2 mmi/;
+specialize qw/vpx_sad8x16 neon msa sse2 vsx mmi/;
 
 add_proto qw/unsigned int vpx_sad8x8/, "const uint8_t *src_ptr, int src_stride, const uint8_t *ref_ptr, int ref_stride";
-specialize qw/vpx_sad8x8 neon msa sse2 mmi/;
+specialize qw/vpx_sad8x8 neon msa sse2 vsx mmi/;
 
 add_proto qw/unsigned int vpx_sad8x4/, "const uint8_t *src_ptr, int src_stride, const uint8_t *ref_ptr, int ref_stride";
-specialize qw/vpx_sad8x4 neon msa sse2 mmi/;
+specialize qw/vpx_sad8x4 neon msa sse2 vsx mmi/;
 
 add_proto qw/unsigned int vpx_sad4x8/, "const uint8_t *src_ptr, int src_stride, const uint8_t *ref_ptr, int ref_stride";
 specialize qw/vpx_sad4x8 neon msa sse2 mmi/;