]> granicus.if.org Git - clang/commitdiff
[X86][AVX512VLBW] add pack, cvt, mulhi and madd intrinsics
authorAsaf Badouh <asaf.badouh@intel.com>
Mon, 3 Aug 2015 07:51:00 +0000 (07:51 +0000)
committerAsaf Badouh <asaf.badouh@intel.com>
Mon, 3 Aug 2015 07:51:00 +0000 (07:51 +0000)
Differential Revision: http://reviews.llvm.org/D11642

git-svn-id: https://llvm.org/svn/llvm-project/cfe/trunk@243867 91177308-0d34-0410-b5e6-96231b3b80d8

include/clang/Basic/BuiltinsX86.def
lib/Headers/avx512vlbwintrin.h
test/CodeGen/avx512vlbw-builtins.c

index baafb4a089bea127cbde96205c55b41d39377906..4ee6915f83f79527626a9b43dbf9e477c0203c94 100644 (file)
@@ -1449,6 +1449,28 @@ BUILTIN(__builtin_ia32_reducepd128_mask, "V2dV2dIiV2dUc", "")
 BUILTIN(__builtin_ia32_reducepd256_mask, "V4dV4dIiV4dUc", "")
 BUILTIN(__builtin_ia32_reduceps128_mask, "V4fV4fIiV4fUc", "")
 BUILTIN(__builtin_ia32_reduceps256_mask, "V8fV8fIiV8fUc", "")
-
-
+BUILTIN(__builtin_ia32_pmaddubsw128_mask, "V8sV16cV16cV8sUc", "")
+BUILTIN(__builtin_ia32_pmaddubsw256_mask, "V16sV32cV32cV16sUs", "")
+BUILTIN(__builtin_ia32_pmaddwd128_mask, "V4iV8sV8sV4iUc", "")
+BUILTIN(__builtin_ia32_pmaddwd256_mask, "V8iV16sV16sV8iUc", "")
+BUILTIN(__builtin_ia32_pmovswb128_mask, "V16cV8sV16cUc", "")
+BUILTIN(__builtin_ia32_pmovswb256_mask, "V16cV16sV16cUs", "")
+BUILTIN(__builtin_ia32_pmovuswb128_mask, "V16cV8sV16cUc", "")
+BUILTIN(__builtin_ia32_pmovuswb256_mask, "V16cV16sV16cUs", "")
+BUILTIN(__builtin_ia32_pmovwb128_mask, "V16cV8sV16cUc", "")
+BUILTIN(__builtin_ia32_pmovwb256_mask, "V16cV16sV16cUs", "")
+BUILTIN(__builtin_ia32_pmulhrsw128_mask, "V8sV8sV8sV8sUc", "")
+BUILTIN(__builtin_ia32_pmulhrsw256_mask, "V16sV16sV16sV16sUs", "")
+BUILTIN(__builtin_ia32_pmulhuw128_mask, "V8sV8sV8sV8sUc", "")
+BUILTIN(__builtin_ia32_pmulhuw256_mask, "V16sV16sV16sV16sUs", "")
+BUILTIN(__builtin_ia32_pmulhw128_mask, "V8sV8sV8sV8sUc", "")
+BUILTIN(__builtin_ia32_pmulhw256_mask, "V16sV16sV16sV16sUs", "")
+BUILTIN(__builtin_ia32_punpckhbw128_mask, "V16cV16cV16cV16cUs", "")
+BUILTIN(__builtin_ia32_punpckhbw256_mask, "V32cV32cV32cV32cUi", "")
+BUILTIN(__builtin_ia32_punpckhwd128_mask, "V8sV8sV8sV8sUc", "")
+BUILTIN(__builtin_ia32_punpckhwd256_mask, "V16sV16sV16sV16sUs", "")
+BUILTIN(__builtin_ia32_punpcklbw128_mask, "V16cV16cV16cV16cUs", "")
+BUILTIN(__builtin_ia32_punpcklbw256_mask, "V32cV32cV32cV32cUi", "")
+BUILTIN(__builtin_ia32_punpcklwd128_mask, "V8sV8sV8sV8sUc", "")
+BUILTIN(__builtin_ia32_punpcklwd256_mask, "V16sV16sV16sV16sUs", "")
 #undef BUILTIN
index eb198a5ade6f97af652995f2fa46cc337ad46da0..4b885de8ba3742a4a3f9d47bd1a7d72bcd79fa2f 100644 (file)
@@ -1822,6 +1822,435 @@ _mm256_maskz_permutex2var_epi16 (__mmask16 __U, __m256i __A,
                (__mmask16) __U);
 }
 
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_maddubs_epi16 (__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) {
+  return (__m128i) __builtin_ia32_pmaddubsw128_mask ((__v16qi) __X,
+               (__v16qi) __Y,
+               (__v8hi) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_maddubs_epi16 (__mmask8 __U, __m128i __X, __m128i __Y) {
+  return (__m128i) __builtin_ia32_pmaddubsw128_mask ((__v16qi) __X,
+               (__v16qi) __Y,
+              (__v8hi) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_maddubs_epi16 (__m256i __W, __mmask16 __U, __m256i __X,
+         __m256i __Y) {
+  return (__m256i) __builtin_ia32_pmaddubsw256_mask ((__v32qi) __X,
+               (__v32qi) __Y,
+               (__v16hi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_maddubs_epi16 (__mmask16 __U, __m256i __X, __m256i __Y) {
+  return (__m256i) __builtin_ia32_pmaddubsw256_mask ((__v32qi) __X,
+               (__v32qi) __Y,
+               (__v16hi) _mm256_setzero_si256(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_madd_epi16 (__m128i __W, __mmask8 __U, __m128i __A,
+         __m128i __B) {
+  return (__m128i) __builtin_ia32_pmaddwd128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v4si) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_madd_epi16 (__mmask8 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_pmaddwd128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v4si) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_madd_epi16 (__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_pmaddwd256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v8si) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_madd_epi16 (__mmask8 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_pmaddwd256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v8si) _mm256_setzero_si256(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_cvtsepi16_epi8 (__m128i __A) {
+  return (__m128i) __builtin_ia32_pmovswb128_mask ((__v8hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               (__mmask8) -1);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_cvtsepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) {
+  return (__m128i) __builtin_ia32_pmovswb128_mask ((__v8hi) __A,
+               (__v16qi) __O,
+                __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_cvtsepi16_epi8 (__mmask8 __M, __m128i __A) {
+  return (__m128i) __builtin_ia32_pmovswb128_mask ((__v8hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_cvtsepi16_epi8 (__m256i __A) {
+  return (__m128i) __builtin_ia32_pmovswb256_mask ((__v16hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               (__mmask16) -1);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_mask_cvtsepi16_epi8 (__m128i __O, __mmask16 __M, __m256i __A) {
+  return (__m128i) __builtin_ia32_pmovswb256_mask ((__v16hi) __A,
+               (__v16qi) __O,
+                __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_maskz_cvtsepi16_epi8 (__mmask16 __M, __m256i __A) {
+  return (__m128i) __builtin_ia32_pmovswb256_mask ((__v16hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_cvtusepi16_epi8 (__m128i __A) {
+  return (__m128i) __builtin_ia32_pmovuswb128_mask ((__v8hi) __A,
+                (__v16qi) _mm_setzero_si128(),
+                (__mmask8) -1);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_cvtusepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) {
+  return (__m128i) __builtin_ia32_pmovuswb128_mask ((__v8hi) __A,
+                (__v16qi) __O,
+                __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_cvtusepi16_epi8 (__mmask8 __M, __m128i __A) {
+  return (__m128i) __builtin_ia32_pmovuswb128_mask ((__v8hi) __A,
+                (__v16qi) _mm_setzero_si128(),
+                __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_cvtusepi16_epi8 (__m256i __A) {
+  return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A,
+                (__v16qi) _mm_setzero_si128(),
+                (__mmask16) -1);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_mask_cvtusepi16_epi8 (__m128i __O, __mmask16 __M, __m256i __A) {
+  return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A,
+                (__v16qi) __O,
+                __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_maskz_cvtusepi16_epi8 (__mmask16 __M, __m256i __A) {
+  return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A,
+                (__v16qi) _mm_setzero_si128(),
+                __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_cvtepi16_epi8 (__m128i __A) {
+
+  return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               (__mmask8) -1);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_cvtepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) {
+  return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A,
+               (__v16qi) __O,
+               __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_cvtepi16_epi8 (__mmask8 __M, __m128i __A) {
+  return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_cvtepi16_epi8 (__m256i __A) {
+  return (__m128i) __builtin_ia32_pmovwb256_mask ((__v16hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               (__mmask16) -1);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_mask_cvtepi16_epi8 (__m128i __O, __mmask16 __M, __m256i __A) {
+  return (__m128i) __builtin_ia32_pmovwb256_mask ((__v16hi) __A,
+               (__v16qi) __O, 
+               __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm256_maskz_cvtepi16_epi8 (__mmask16 __M, __m256i __A) {
+  return (__m128i) __builtin_ia32_pmovwb256_mask ((__v16hi) __A,
+               (__v16qi) _mm_setzero_si128(),
+               __M);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_mulhrs_epi16 (__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) {
+  return (__m128i) __builtin_ia32_pmulhrsw128_mask ((__v8hi) __X,
+               (__v8hi) __Y,
+               (__v8hi) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_mulhrs_epi16 (__mmask8 __U, __m128i __X, __m128i __Y) {
+  return (__m128i) __builtin_ia32_pmulhrsw128_mask ((__v8hi) __X,
+               (__v8hi) __Y,
+              (__v8hi) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_mulhrs_epi16 (__m256i __W, __mmask16 __U, __m256i __X, __m256i __Y) {
+  return (__m256i) __builtin_ia32_pmulhrsw256_mask ((__v16hi) __X,
+               (__v16hi) __Y,
+               (__v16hi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_mulhrs_epi16 (__mmask16 __U, __m256i __X, __m256i __Y) {
+  return (__m256i) __builtin_ia32_pmulhrsw256_mask ((__v16hi) __X,
+               (__v16hi) __Y,
+               (__v16hi) _mm256_setzero_si256(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_mulhi_epu16 (__m128i __W, __mmask8 __U, __m128i __A,
+          __m128i __B) {
+  return (__m128i) __builtin_ia32_pmulhuw128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v8hi) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_mulhi_epu16 (__mmask8 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_pmulhuw128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+              (__v8hi) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_mulhi_epu16 (__m256i __W, __mmask16 __U, __m256i __A,
+       __m256i __B) {
+  return (__m256i) __builtin_ia32_pmulhuw256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_mulhi_epu16 (__mmask16 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_pmulhuw256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) _mm256_setzero_si256(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_mulhi_epi16 (__m128i __W, __mmask8 __U, __m128i __A,
+          __m128i __B) {
+  return (__m128i) __builtin_ia32_pmulhw128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v8hi) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_mulhi_epi16 (__mmask8 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_pmulhw128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+              (__v8hi) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_mulhi_epi16 (__m256i __W, __mmask16 __U, __m256i __A,
+       __m256i __B) {
+  return (__m256i) __builtin_ia32_pmulhw256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_mulhi_epi16 (__mmask16 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_pmulhw256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) _mm256_setzero_si256(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_unpackhi_epi8 (__m128i __W, __mmask16 __U, __m128i __A,
+      __m128i __B) {
+  return (__m128i) __builtin_ia32_punpckhbw128_mask ((__v16qi) __A,
+               (__v16qi) __B,
+               (__v16qi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_unpackhi_epi8 (__mmask16 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_punpckhbw128_mask ((__v16qi) __A,
+               (__v16qi) __B,
+               (__v16qi) _mm_setzero_si128(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_unpackhi_epi8 (__m256i __W, __mmask32 __U, __m256i __A,
+         __m256i __B) {
+  return (__m256i) __builtin_ia32_punpckhbw256_mask ((__v32qi) __A,
+               (__v32qi) __B,
+               (__v32qi) __W,
+               (__mmask32) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_unpackhi_epi8 (__mmask32 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_punpckhbw256_mask ((__v32qi) __A,
+               (__v32qi) __B,
+               (__v32qi) _mm256_setzero_si256(),
+               (__mmask32) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_unpackhi_epi16 (__m128i __W, __mmask8 __U, __m128i __A,
+       __m128i __B) {
+  return (__m128i) __builtin_ia32_punpckhwd128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v8hi) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_unpackhi_epi16 (__mmask8 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_punpckhwd128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v8hi) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_unpackhi_epi16 (__m256i __W, __mmask16 __U, __m256i __A,
+          __m256i __B) {
+  return (__m256i) __builtin_ia32_punpckhwd256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_unpackhi_epi16 (__mmask16 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_punpckhwd256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) _mm256_setzero_si256(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_unpacklo_epi8 (__m128i __W, __mmask16 __U, __m128i __A,
+      __m128i __B) {
+  return (__m128i) __builtin_ia32_punpcklbw128_mask ((__v16qi) __A,
+               (__v16qi) __B,
+               (__v16qi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_unpacklo_epi8 (__mmask16 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_punpcklbw128_mask ((__v16qi) __A,
+               (__v16qi) __B,
+               (__v16qi) _mm_setzero_si128(),
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_unpacklo_epi8 (__m256i __W, __mmask32 __U, __m256i __A,
+         __m256i __B) {
+  return (__m256i) __builtin_ia32_punpcklbw256_mask ((__v32qi) __A,
+               (__v32qi) __B,
+               (__v32qi) __W,
+               (__mmask32) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_unpacklo_epi8 (__mmask32 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_punpcklbw256_mask ((__v32qi) __A,
+               (__v32qi) __B,
+               (__v32qi) _mm256_setzero_si256(),
+               (__mmask32) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_mask_unpacklo_epi16 (__m128i __W, __mmask8 __U, __m128i __A,
+       __m128i __B) {
+  return (__m128i) __builtin_ia32_punpcklwd128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v8hi) __W,
+               (__mmask8) __U);
+}
+
+static __inline__ __m128i __DEFAULT_FN_ATTRS
+_mm_maskz_unpacklo_epi16 (__mmask8 __U, __m128i __A, __m128i __B) {
+  return (__m128i) __builtin_ia32_punpcklwd128_mask ((__v8hi) __A,
+               (__v8hi) __B,
+               (__v8hi) _mm_setzero_si128(),
+               (__mmask8) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_mask_unpacklo_epi16 (__m256i __W, __mmask16 __U, __m256i __A,
+          __m256i __B) {
+  return (__m256i) __builtin_ia32_punpcklwd256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) __W,
+               (__mmask16) __U);
+}
+
+static __inline__ __m256i __DEFAULT_FN_ATTRS
+_mm256_maskz_unpacklo_epi16 (__mmask16 __U, __m256i __A, __m256i __B) {
+  return (__m256i) __builtin_ia32_punpcklwd256_mask ((__v16hi) __A,
+               (__v16hi) __B,
+               (__v16hi) _mm256_setzero_si256(),
+               (__mmask16) __U);
+}
+
 #define _mm_cmp_epi8_mask(a, b, p) __extension__ ({ \
   (__mmask16)__builtin_ia32_cmpb128_mask((__v16qi)(__m128i)(a), \
                                          (__v16qi)(__m128i)(b), \
index 7aa8b873dc4275c7efcefa75deba182a3b27d8e8..eb12d504a3c846083981fa9a09b789116b10de0e 100644 (file)
@@ -1377,3 +1377,327 @@ __m256i test_mm256_maskz_permutex2var_epi16(__mmask16 __U, __m256i __A,
   // CHECK: @llvm.x86.avx512.maskz.vpermt2var.hi.256
   return _mm256_maskz_permutex2var_epi16(__U,__A,__I,__B); 
 }
+__m128i test_mm_mask_maddubs_epi16(__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) {
+  // CHECK-LABEL: @test_mm_mask_maddubs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.128
+  return _mm_mask_maddubs_epi16(__W, __U, __X, __Y); 
+}
+
+__m128i test_mm_maskz_maddubs_epi16(__mmask8 __U, __m128i __X, __m128i __Y) {
+  // CHECK-LABEL: @test_mm_maskz_maddubs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.128
+  return _mm_maskz_maddubs_epi16(__U, __X, __Y); 
+}
+
+__m256i test_mm256_mask_maddubs_epi16(__m256i __W, __mmask16 __U, __m256i __X, __m256i __Y) {
+  // CHECK-LABEL: @test_mm256_mask_maddubs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.256
+  return _mm256_mask_maddubs_epi16(__W, __U, __X, __Y); 
+}
+
+__m256i test_mm256_maskz_maddubs_epi16(__mmask16 __U, __m256i __X, __m256i __Y) {
+  // CHECK-LABEL: @test_mm256_maskz_maddubs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.256
+  return _mm256_maskz_maddubs_epi16(__U, __X, __Y); 
+}
+
+__m128i test_mm_mask_madd_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_madd_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddw.d.128
+  return _mm_mask_madd_epi16(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_madd_epi16(__mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_madd_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddw.d.128
+  return _mm_maskz_madd_epi16(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_madd_epi16(__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_madd_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddw.d.256
+  return _mm256_mask_madd_epi16(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_madd_epi16(__mmask8 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_madd_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmaddw.d.256
+  return _mm256_maskz_madd_epi16(__U, __A, __B); 
+}
+
+__m128i test_mm_cvtsepi16_epi8(__m128i __A) {
+  // CHECK-LABEL: @test_mm_cvtsepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovs.wb.128
+  return _mm_cvtsepi16_epi8(__A); 
+}
+
+__m128i test_mm_mask_cvtsepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) {
+  // CHECK-LABEL: @test_mm_mask_cvtsepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovs.wb.128
+  return _mm_mask_cvtsepi16_epi8(__O, __M, __A); 
+}
+
+__m128i test_mm_maskz_cvtsepi16_epi8(__mmask8 __M, __m128i __A) {
+  // CHECK-LABEL: @test_mm_maskz_cvtsepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovs.wb.128
+  return _mm_maskz_cvtsepi16_epi8(__M, __A); 
+}
+
+__m128i test_mm256_cvtsepi16_epi8(__m256i __A) {
+  // CHECK-LABEL: @test_mm256_cvtsepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovs.wb.256
+  return _mm256_cvtsepi16_epi8(__A); 
+}
+
+__m128i test_mm256_mask_cvtsepi16_epi8(__m128i __O, __mmask16 __M, __m256i __A) {
+  // CHECK-LABEL: @test_mm256_mask_cvtsepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovs.wb.256
+  return _mm256_mask_cvtsepi16_epi8(__O, __M, __A); 
+}
+
+__m128i test_mm256_maskz_cvtsepi16_epi8(__mmask16 __M, __m256i __A) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtsepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovs.wb.256
+  return _mm256_maskz_cvtsepi16_epi8(__M, __A); 
+}
+
+__m128i test_mm_cvtusepi16_epi8(__m128i __A) {
+  // CHECK-LABEL: @test_mm_cvtusepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovus.wb.128
+  return _mm_cvtusepi16_epi8(__A); 
+}
+
+__m128i test_mm_mask_cvtusepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) {
+  // CHECK-LABEL: @test_mm_mask_cvtusepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovus.wb.128
+  return _mm_mask_cvtusepi16_epi8(__O, __M, __A); 
+}
+
+__m128i test_mm_maskz_cvtusepi16_epi8(__mmask8 __M, __m128i __A) {
+  // CHECK-LABEL: @test_mm_maskz_cvtusepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovus.wb.128
+  return _mm_maskz_cvtusepi16_epi8(__M, __A); 
+}
+
+__m128i test_mm256_cvtusepi16_epi8(__m256i __A) {
+  // CHECK-LABEL: @test_mm256_cvtusepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovus.wb.256
+  return _mm256_cvtusepi16_epi8(__A); 
+}
+
+__m128i test_mm256_mask_cvtusepi16_epi8(__m128i __O, __mmask16 __M, __m256i __A) {
+  // CHECK-LABEL: @test_mm256_mask_cvtusepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovus.wb.256
+  return _mm256_mask_cvtusepi16_epi8(__O, __M, __A); 
+}
+
+__m128i test_mm256_maskz_cvtusepi16_epi8(__mmask16 __M, __m256i __A) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtusepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmovus.wb.256
+  return _mm256_maskz_cvtusepi16_epi8(__M, __A); 
+}
+
+__m128i test_mm_cvtepi16_epi8(__m128i __A) {
+  // CHECK-LABEL: @test_mm_cvtepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmov.wb.128
+  return _mm_cvtepi16_epi8(__A); 
+}
+
+__m128i test_mm_mask_cvtepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) {
+  // CHECK-LABEL: @test_mm_mask_cvtepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmov.wb.128
+  return _mm_mask_cvtepi16_epi8(__O, __M, __A); 
+}
+
+__m128i test_mm_maskz_cvtepi16_epi8(__mmask8 __M, __m128i __A) {
+  // CHECK-LABEL: @test_mm_maskz_cvtepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmov.wb.128
+  return _mm_maskz_cvtepi16_epi8(__M, __A); 
+}
+
+__m128i test_mm256_cvtepi16_epi8(__m256i __A) {
+  // CHECK-LABEL: @test_mm256_cvtepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmov.wb.256
+  return _mm256_cvtepi16_epi8(__A); 
+}
+
+__m128i test_mm256_mask_cvtepi16_epi8(__m128i __O, __mmask16 __M, __m256i __A) {
+  // CHECK-LABEL: @test_mm256_mask_cvtepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmov.wb.256
+  return _mm256_mask_cvtepi16_epi8(__O, __M, __A); 
+}
+
+__m128i test_mm256_maskz_cvtepi16_epi8(__mmask16 __M, __m256i __A) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtepi16_epi8
+  // CHECK: @llvm.x86.avx512.mask.pmov.wb.256
+  return _mm256_maskz_cvtepi16_epi8(__M, __A); 
+}
+
+__m128i test_mm_mask_mulhrs_epi16(__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) {
+  // CHECK-LABEL: @test_mm_mask_mulhrs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.128
+  return _mm_mask_mulhrs_epi16(__W, __U, __X, __Y); 
+}
+
+__m128i test_mm_maskz_mulhrs_epi16(__mmask8 __U, __m128i __X, __m128i __Y) {
+  // CHECK-LABEL: @test_mm_maskz_mulhrs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.128
+  return _mm_maskz_mulhrs_epi16(__U, __X, __Y); 
+}
+
+__m256i test_mm256_mask_mulhrs_epi16(__m256i __W, __mmask16 __U, __m256i __X, __m256i __Y) {
+  // CHECK-LABEL: @test_mm256_mask_mulhrs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.256
+  return _mm256_mask_mulhrs_epi16(__W, __U, __X, __Y); 
+}
+
+__m256i test_mm256_maskz_mulhrs_epi16(__mmask16 __U, __m256i __X, __m256i __Y) {
+  // CHECK-LABEL: @test_mm256_maskz_mulhrs_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.256
+  return _mm256_maskz_mulhrs_epi16(__U, __X, __Y); 
+}
+
+__m128i test_mm_mask_mulhi_epu16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_mulhi_epu16
+  // CHECK: @llvm.x86.avx512.mask.pmulhu.w.128
+  return _mm_mask_mulhi_epu16(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_mulhi_epu16(__mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_mulhi_epu16
+  // CHECK: @llvm.x86.avx512.mask.pmulhu.w.128
+  return _mm_maskz_mulhi_epu16(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_mulhi_epu16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_mulhi_epu16
+  // CHECK: @llvm.x86.avx512.mask.pmulhu.w.256
+  return _mm256_mask_mulhi_epu16(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_mulhi_epu16(__mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_mulhi_epu16
+  // CHECK: @llvm.x86.avx512.mask.pmulhu.w.256
+  return _mm256_maskz_mulhi_epu16(__U, __A, __B); 
+}
+
+__m128i test_mm_mask_mulhi_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_mulhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmulh.w.128
+  return _mm_mask_mulhi_epi16(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_mulhi_epi16(__mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_mulhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmulh.w.128
+  return _mm_maskz_mulhi_epi16(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_mulhi_epi16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_mulhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmulh.w.256
+  return _mm256_mask_mulhi_epi16(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_mulhi_epi16(__mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_mulhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.pmulh.w.256
+  return _mm256_maskz_mulhi_epi16(__U, __A, __B); 
+}
+
+__m128i test_mm_mask_unpackhi_epi8(__m128i __W, __mmask16 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_unpackhi_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpckhb.w.128
+  return _mm_mask_unpackhi_epi8(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_unpackhi_epi8(__mmask16 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_unpackhi_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpckhb.w.128
+  return _mm_maskz_unpackhi_epi8(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_unpackhi_epi8(__m256i __W, __mmask32 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_unpackhi_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpckhb.w.256
+  return _mm256_mask_unpackhi_epi8(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_unpackhi_epi8(__mmask32 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_unpackhi_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpckhb.w.256
+  return _mm256_maskz_unpackhi_epi8(__U, __A, __B); 
+}
+
+__m128i test_mm_mask_unpackhi_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_unpackhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpckhw.d.128
+  return _mm_mask_unpackhi_epi16(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_unpackhi_epi16(__mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_unpackhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpckhw.d.128
+  return _mm_maskz_unpackhi_epi16(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_unpackhi_epi16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_unpackhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpckhw.d.256
+  return _mm256_mask_unpackhi_epi16(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_unpackhi_epi16(__mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_unpackhi_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpckhw.d.256
+  return _mm256_maskz_unpackhi_epi16(__U, __A, __B); 
+}
+
+__m128i test_mm_mask_unpacklo_epi8(__m128i __W, __mmask16 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_unpacklo_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpcklb.w.128
+  return _mm_mask_unpacklo_epi8(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_unpacklo_epi8(__mmask16 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_unpacklo_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpcklb.w.128
+  return _mm_maskz_unpacklo_epi8(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_unpacklo_epi8(__m256i __W, __mmask32 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_unpacklo_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpcklb.w.256
+  return _mm256_mask_unpacklo_epi8(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_unpacklo_epi8(__mmask32 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_unpacklo_epi8
+  // CHECK: @llvm.x86.avx512.mask.punpcklb.w.256
+  return _mm256_maskz_unpacklo_epi8(__U, __A, __B); 
+}
+
+__m128i test_mm_mask_unpacklo_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_mask_unpacklo_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpcklw.d.128
+  return _mm_mask_unpacklo_epi16(__W, __U, __A, __B); 
+}
+
+__m128i test_mm_maskz_unpacklo_epi16(__mmask8 __U, __m128i __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_unpacklo_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpcklw.d.128
+  return _mm_maskz_unpacklo_epi16(__U, __A, __B); 
+}
+
+__m256i test_mm256_mask_unpacklo_epi16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_mask_unpacklo_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpcklw.d.256
+  return _mm256_mask_unpacklo_epi16(__W, __U, __A, __B); 
+}
+
+__m256i test_mm256_maskz_unpacklo_epi16(__mmask16 __U, __m256i __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_unpacklo_epi16
+  // CHECK: @llvm.x86.avx512.mask.punpcklw.d.256
+  return _mm256_maskz_unpacklo_epi16(__U, __A, __B); 
+}
+