vpx_fdct16x16_1_sse2: improve load pattern

author James Zern <jzern@google.com>

Fri, 1 Apr 2016 19:40:14 +0000 (12:40 -0700)

committer James Zern <jzern@google.com>

Mon, 4 Apr 2016 23:03:42 +0000 (16:03 -0700)
author James Zern <jzern@google.com>
Fri, 1 Apr 2016 19:40:14 +0000 (12:40 -0700)
committer James Zern <jzern@google.com>
Mon, 4 Apr 2016 23:03:42 +0000 (16:03 -0700)
diff --git a/vpx_dsp/x86/fwd_txfm_sse2.c b/vpx_dsp/x86/fwd_txfm_sse2.c

index 62c18d3b4ad6bf9423400df5b9fdff4b6e4fdde1..e4deeecaeb0530acfcf601cbc98148ac1fffea86 100644 (file)
--- a/vpx_dsp/x86/fwd_txfm_sse2.c
+++ b/vpx_dsp/x86/fwd_txfm_sse2.c
@@ -91,40 +91,39 @@ void vpx_fdct16x16_1_sse2(const int16_t *input, tran_low_t *output,
    int i;
  
    for (i = 0; i < 2; ++i) {
-    input += 8 * i;
-    in0  = _mm_load_si128((const __m128i *)(input +  0 * stride));
-    in1  = _mm_load_si128((const __m128i *)(input +  1 * stride));
-    in2  = _mm_load_si128((const __m128i *)(input +  2 * stride));
-    in3  = _mm_load_si128((const __m128i *)(input +  3 * stride));
+    in0  = _mm_load_si128((const __m128i *)(input + 0 * stride + 0));
+    in1  = _mm_load_si128((const __m128i *)(input + 0 * stride + 8));
+    in2  = _mm_load_si128((const __m128i *)(input + 1 * stride + 0));
+    in3  = _mm_load_si128((const __m128i *)(input + 1 * stride + 8));
  
      u0 = _mm_add_epi16(in0, in1);
      u1 = _mm_add_epi16(in2, in3);
      sum = _mm_add_epi16(sum, u0);
  
-    in0  = _mm_load_si128((const __m128i *)(input +  4 * stride));
-    in1  = _mm_load_si128((const __m128i *)(input +  5 * stride));
-    in2  = _mm_load_si128((const __m128i *)(input +  6 * stride));
-    in3  = _mm_load_si128((const __m128i *)(input +  7 * stride));
+    in0  = _mm_load_si128((const __m128i *)(input + 2 * stride + 0));
+    in1  = _mm_load_si128((const __m128i *)(input + 2 * stride + 8));
+    in2  = _mm_load_si128((const __m128i *)(input + 3 * stride + 0));
+    in3  = _mm_load_si128((const __m128i *)(input + 3 * stride + 8));
  
      sum = _mm_add_epi16(sum, u1);
      u0  = _mm_add_epi16(in0, in1);
      u1  = _mm_add_epi16(in2, in3);
      sum = _mm_add_epi16(sum, u0);
  
-    in0  = _mm_load_si128((const __m128i *)(input +  8 * stride));
-    in1  = _mm_load_si128((const __m128i *)(input +  9 * stride));
-    in2  = _mm_load_si128((const __m128i *)(input + 10 * stride));
-    in3  = _mm_load_si128((const __m128i *)(input + 11 * stride));
+    in0  = _mm_load_si128((const __m128i *)(input + 4 * stride + 0));
+    in1  = _mm_load_si128((const __m128i *)(input + 4 * stride + 8));
+    in2  = _mm_load_si128((const __m128i *)(input + 5 * stride + 0));
+    in3  = _mm_load_si128((const __m128i *)(input + 5 * stride + 8));
  
      sum = _mm_add_epi16(sum, u1);
      u0  = _mm_add_epi16(in0, in1);
      u1  = _mm_add_epi16(in2, in3);
      sum = _mm_add_epi16(sum, u0);
  
-    in0  = _mm_load_si128((const __m128i *)(input + 12 * stride));
-    in1  = _mm_load_si128((const __m128i *)(input + 13 * stride));
-    in2  = _mm_load_si128((const __m128i *)(input + 14 * stride));
-    in3  = _mm_load_si128((const __m128i *)(input + 15 * stride));
+    in0  = _mm_load_si128((const __m128i *)(input + 6 * stride + 0));
+    in1  = _mm_load_si128((const __m128i *)(input + 6 * stride + 8));
+    in2  = _mm_load_si128((const __m128i *)(input + 7 * stride + 0));
+    in3  = _mm_load_si128((const __m128i *)(input + 7 * stride + 8));
  
      sum = _mm_add_epi16(sum, u1);
      u0  = _mm_add_epi16(in0, in1);
@@ -132,6 +131,7 @@ void vpx_fdct16x16_1_sse2(const int16_t *input, tran_low_t *output,
      sum = _mm_add_epi16(sum, u0);
  
      sum = _mm_add_epi16(sum, u1);
+    input += 8 * stride;
    }
  
    u0  = _mm_setzero_si128();
author	James Zern <jzern@google.com>
	Fri, 1 Apr 2016 19:40:14 +0000 (12:40 -0700)
committer	James Zern <jzern@google.com>
	Mon, 4 Apr 2016 23:03:42 +0000 (16:03 -0700)