Fix decoder mismatch in sub-pixel AVX2 intrinsic filters

author levytamar82 <tamar.levy@intel.com>

Fri, 23 May 2014 23:42:10 +0000 (16:42 -0700)

committer levytamar82 <tamar.levy@intel.com>

Fri, 23 May 2014 23:48:40 +0000 (16:48 -0700)
author levytamar82 <tamar.levy@intel.com>
Fri, 23 May 2014 23:42:10 +0000 (16:42 -0700)
committer levytamar82 <tamar.levy@intel.com>
Fri, 23 May 2014 23:48:40 +0000 (16:48 -0700)
diff --git a/vp9/common/x86/vp9_subpixel_8t_intrin_avx2.c b/vp9/common/x86/vp9_subpixel_8t_intrin_avx2.c

index b84db970ebaca438d29b4b463515a720b57ba99e..d109e136a2f9e02f93aa51d056505b9409c82f91 100644 (file)
--- a/vp9/common/x86/vp9_subpixel_8t_intrin_avx2.c
+++ b/vp9/common/x86/vp9_subpixel_8t_intrin_avx2.c
@@ -111,21 +111,21 @@ void vp9_filter_block1d16_h8_avx2(unsigned char *src_ptr,
  
      // filter the source buffer
      srcRegFilt32b1_1= _mm256_shuffle_epi8(srcReg32b1, filt1Reg);
-    srcRegFilt32b2= _mm256_shuffle_epi8(srcReg32b1, filt2Reg);
+    srcRegFilt32b2= _mm256_shuffle_epi8(srcReg32b1, filt4Reg);
  
      // multiply 2 adjacent elements with the filter and add the result
      srcRegFilt32b1_1 = _mm256_maddubs_epi16(srcRegFilt32b1_1, firstFilters);
-    srcRegFilt32b2 = _mm256_maddubs_epi16(srcRegFilt32b2, secondFilters);
+    srcRegFilt32b2 = _mm256_maddubs_epi16(srcRegFilt32b2, forthFilters);
  
      // add and saturate the results together
      srcRegFilt32b1_1 = _mm256_adds_epi16(srcRegFilt32b1_1, srcRegFilt32b2);
  
      // filter the source buffer
-    srcRegFilt32b3= _mm256_shuffle_epi8(srcReg32b1, filt4Reg);
+    srcRegFilt32b3= _mm256_shuffle_epi8(srcReg32b1, filt2Reg);
      srcRegFilt32b2= _mm256_shuffle_epi8(srcReg32b1, filt3Reg);
  
      // multiply 2 adjacent elements with the filter and add the result
-    srcRegFilt32b3 = _mm256_maddubs_epi16(srcRegFilt32b3, forthFilters);
+    srcRegFilt32b3 = _mm256_maddubs_epi16(srcRegFilt32b3, secondFilters);
      srcRegFilt32b2 = _mm256_maddubs_epi16(srcRegFilt32b2, thirdFilters);
  
      // add and saturate the results together
@@ -146,21 +146,21 @@ void vp9_filter_block1d16_h8_avx2(unsigned char *src_ptr,
  
      // filter the source buffer
      srcRegFilt32b2_1 = _mm256_shuffle_epi8(srcReg32b2, filt1Reg);
-    srcRegFilt32b2 = _mm256_shuffle_epi8(srcReg32b2, filt2Reg);
+    srcRegFilt32b2 = _mm256_shuffle_epi8(srcReg32b2, filt4Reg);
  
      // multiply 2 adjacent elements with the filter and add the result
      srcRegFilt32b2_1 = _mm256_maddubs_epi16(srcRegFilt32b2_1, firstFilters);
-    srcRegFilt32b2 = _mm256_maddubs_epi16(srcRegFilt32b2, secondFilters);
+    srcRegFilt32b2 = _mm256_maddubs_epi16(srcRegFilt32b2, forthFilters);
  
      // add and saturate the results together
      srcRegFilt32b2_1 = _mm256_adds_epi16(srcRegFilt32b2_1, srcRegFilt32b2);
  
      // filter the source buffer
-    srcRegFilt32b3= _mm256_shuffle_epi8(srcReg32b2, filt4Reg);
+    srcRegFilt32b3= _mm256_shuffle_epi8(srcReg32b2, filt2Reg);
      srcRegFilt32b2= _mm256_shuffle_epi8(srcReg32b2, filt3Reg);
  
      // multiply 2 adjacent elements with the filter and add the result
-    srcRegFilt32b3 = _mm256_maddubs_epi16(srcRegFilt32b3, forthFilters);
+    srcRegFilt32b3 = _mm256_maddubs_epi16(srcRegFilt32b3, secondFilters);
      srcRegFilt32b2 = _mm256_maddubs_epi16(srcRegFilt32b2, thirdFilters);
  
      // add and saturate the results together
@@ -208,26 +208,26 @@ void vp9_filter_block1d16_h8_avx2(unsigned char *src_ptr,
      srcRegFilt1_1 = _mm_shuffle_epi8(srcReg1,
                      _mm256_castsi256_si128(filt1Reg));
      srcRegFilt2 = _mm_shuffle_epi8(srcReg1,
-                  _mm256_castsi256_si128(filt2Reg));
+                  _mm256_castsi256_si128(filt4Reg));
  
      // multiply 2 adjacent elements with the filter and add the result
      srcRegFilt1_1 = _mm_maddubs_epi16(srcRegFilt1_1,
                      _mm256_castsi256_si128(firstFilters));
      srcRegFilt2 = _mm_maddubs_epi16(srcRegFilt2,
-                  _mm256_castsi256_si128(secondFilters));
+                  _mm256_castsi256_si128(forthFilters));
  
      // add and saturate the results together
      srcRegFilt1_1 = _mm_adds_epi16(srcRegFilt1_1, srcRegFilt2);
  
      // filter the source buffer
      srcRegFilt3= _mm_shuffle_epi8(srcReg1,
-                 _mm256_castsi256_si128(filt4Reg));
+                 _mm256_castsi256_si128(filt2Reg));
      srcRegFilt2= _mm_shuffle_epi8(srcReg1,
                   _mm256_castsi256_si128(filt3Reg));
  
      // multiply 2 adjacent elements with the filter and add the result
      srcRegFilt3 = _mm_maddubs_epi16(srcRegFilt3,
-                  _mm256_castsi256_si128(forthFilters));
+                  _mm256_castsi256_si128(secondFilters));
      srcRegFilt2 = _mm_maddubs_epi16(srcRegFilt2,
                    _mm256_castsi256_si128(thirdFilters));
  
@@ -247,26 +247,26 @@ void vp9_filter_block1d16_h8_avx2(unsigned char *src_ptr,
      srcRegFilt2_1 = _mm_shuffle_epi8(srcReg2,
                      _mm256_castsi256_si128(filt1Reg));
      srcRegFilt2 = _mm_shuffle_epi8(srcReg2,
-                  _mm256_castsi256_si128(filt2Reg));
+                  _mm256_castsi256_si128(filt4Reg));
  
      // multiply 2 adjacent elements with the filter and add the result
      srcRegFilt2_1 = _mm_maddubs_epi16(srcRegFilt2_1,
                      _mm256_castsi256_si128(firstFilters));
      srcRegFilt2 = _mm_maddubs_epi16(srcRegFilt2,
-                  _mm256_castsi256_si128(secondFilters));
+                  _mm256_castsi256_si128(forthFilters));
  
      // add and saturate the results together
      srcRegFilt2_1 = _mm_adds_epi16(srcRegFilt2_1, srcRegFilt2);
  
      // filter the source buffer
      srcRegFilt3 = _mm_shuffle_epi8(srcReg2,
-                  _mm256_castsi256_si128(filt4Reg));
+                  _mm256_castsi256_si128(filt2Reg));
      srcRegFilt2 = _mm_shuffle_epi8(srcReg2,
                    _mm256_castsi256_si128(filt3Reg));
  
      // multiply 2 adjacent elements with the filter and add the result
      srcRegFilt3 = _mm_maddubs_epi16(srcRegFilt3,
-                  _mm256_castsi256_si128(forthFilters));
+                  _mm256_castsi256_si128(secondFilters));
      srcRegFilt2 = _mm_maddubs_epi16(srcRegFilt2,
                    _mm256_castsi256_si128(thirdFilters));
author	levytamar82 <tamar.levy@intel.com>
	Fri, 23 May 2014 23:42:10 +0000 (16:42 -0700)
committer	levytamar82 <tamar.levy@intel.com>
	Fri, 23 May 2014 23:48:40 +0000 (16:48 -0700)