[X86] Don't create VBROADCAST nodes with 256-bit or 512-bit input types

author Craig Topper <craig.topper@gmail.com>

Wed, 15 Feb 2017 06:58:47 +0000 (06:58 +0000)

committer Craig Topper <craig.topper@gmail.com>

Wed, 15 Feb 2017 06:58:47 +0000 (06:58 +0000)
author Craig Topper <craig.topper@gmail.com>
Wed, 15 Feb 2017 06:58:47 +0000 (06:58 +0000)
committer Craig Topper <craig.topper@gmail.com>
Wed, 15 Feb 2017 06:58:47 +0000 (06:58 +0000)
diff --git a/lib/Target/X86/X86ISelLowering.cpp b/lib/Target/X86/X86ISelLowering.cpp

index 37574a9dd0b83b8c2692457655fb5f2548fb45c7..6f7d779be9ee429d3b023e57479f47396c6ca009 100644 (file)
--- a/lib/Target/X86/X86ISelLowering.cpp
+++ b/lib/Target/X86/X86ISelLowering.cpp
@@ -5394,8 +5394,18 @@ static bool getTargetShuffleMask(SDNode *N, MVT VT, bool AllowSentinelZero,
      IsUnary = true;
      break;
    case X86ISD::VBROADCAST: {
-    // We only decode broadcasts of same-sized vectors at the moment.
-    if (N->getOperand(0).getValueType() == VT) {
+    SDValue N0 = N->getOperand(0);
+    // See if we're broadcasting from index 0 of an EXTRACT_SUBVECTOR. If so,
+    // add the pre-extracted value to the Ops vector.
+    if (N0.getOpcode() == ISD::EXTRACT_SUBVECTOR &&
+        N0.getOperand(0).getValueType() == VT &&
+        N0.getConstantOperandVal(1) == 0)
+      Ops.push_back(N0.getOperand(0));
+
+    // We only decode broadcasts of same-sized vectors, unless the broadcast
+    // came from an extract from the original width. If we found one, we
+    // pushed it the Ops vector above.
+    if (N0.getValueType() == VT || !Ops.empty()) {
        DecodeVectorBroadcast(VT, Mask);
        IsUnary = true;
        break;
@@ -9729,6 +9739,12 @@ static SDValue lowerVectorShuffleAsBroadcast(const SDLoc &DL, MVT VT,
      BroadcastVT = MVT::getVectorVT(MVT::f64, NumBroadcastElts);
    }
  
+  // We only support broadcasting from 128-bit vectors to minimize the
+  // number of patterns we need to deal with in isel. So extract down to
+  // 128-bits.
+  if (SrcVT.getSizeInBits() > 128)
+    V = extract128BitVector(V, 0, DAG, DL);
+
    return DAG.getBitcast(VT, DAG.getNode(Opcode, DL, BroadcastVT, V));
  }
  
diff --git a/test/CodeGen/X86/masked_gather_scatter.ll b/test/CodeGen/X86/masked_gather_scatter.ll

index 3192561716443cb3a2ff2f9079f1658789b2c5aa..b13702ed99a2b8d4071ca3ad981de6d81d16bbec 100644 (file)
--- a/test/CodeGen/X86/masked_gather_scatter.ll
+++ b/test/CodeGen/X86/masked_gather_scatter.ll
@@ -714,8 +714,7 @@ define <16 x float> @test13(float* %base, <16 x i32> %ind) {
  define <16 x float> @test14(float* %base, i32 %ind, <16 x float*> %vec) {
  ; KNL_64-LABEL: test14:
  ; KNL_64:       # BB#0:
-; KNL_64-NEXT:    vpinsrq $1, %rdi, %xmm0, %xmm1
-; KNL_64-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
+; KNL_64-NEXT:    vpinsrq $1, %rdi, %xmm0, %xmm0
  ; KNL_64-NEXT:    vpbroadcastq %xmm0, %zmm0
  ; KNL_64-NEXT:    vmovd %esi, %xmm1
  ; KNL_64-NEXT:    vpbroadcastd %xmm1, %ymm1
@@ -731,8 +730,7 @@ define <16 x float> @test14(float* %base, i32 %ind, <16 x float*> %vec) {
  ;
  ; KNL_32-LABEL: test14:
  ; KNL_32:       # BB#0:
-; KNL_32-NEXT:    vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm1
-; KNL_32-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
+; KNL_32-NEXT:    vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0
  ; KNL_32-NEXT:    vpbroadcastd %xmm0, %zmm0
  ; KNL_32-NEXT:    vpslld $2, {{[0-9]+}}(%esp){1to16}, %zmm1
  ; KNL_32-NEXT:    vpaddd %zmm1, %zmm0, %zmm1
@@ -742,8 +740,7 @@ define <16 x float> @test14(float* %base, i32 %ind, <16 x float*> %vec) {
  ;
  ; SKX-LABEL: test14:
  ; SKX:       # BB#0:
-; SKX-NEXT:    vpinsrq $1, %rdi, %xmm0, %xmm1
-; SKX-NEXT:    vinserti64x2 $0, %xmm1, %zmm0, %zmm0
+; SKX-NEXT:    vpinsrq $1, %rdi, %xmm0, %xmm0
  ; SKX-NEXT:    vpbroadcastq %xmm0, %zmm0
  ; SKX-NEXT:    vpbroadcastd %esi, %ymm1
  ; SKX-NEXT:    vpmovsxdq %ymm1, %zmm1
@@ -758,8 +755,7 @@ define <16 x float> @test14(float* %base, i32 %ind, <16 x float*> %vec) {
  ;
  ; SKX_32-LABEL: test14:
  ; SKX_32:       # BB#0:
-; SKX_32-NEXT:    vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm1
-; SKX_32-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
+; SKX_32-NEXT:    vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0
  ; SKX_32-NEXT:    vpbroadcastd %xmm0, %zmm0
  ; SKX_32-NEXT:    vpslld $2, {{[0-9]+}}(%esp){1to16}, %zmm1
  ; SKX_32-NEXT:    vpaddd %zmm1, %zmm0, %zmm1
diff --git a/test/CodeGen/X86/vector-shuffle-avx512.ll b/test/CodeGen/X86/vector-shuffle-avx512.ll

index 4098d16d288cc7b065387329e0348e9780eab5d1..0688a93fdc7a03625090510c839824dc2884ac76 100644 (file)
--- a/test/CodeGen/X86/vector-shuffle-avx512.ll
+++ b/test/CodeGen/X86/vector-shuffle-avx512.ll
@@ -126,7 +126,6 @@ define <8 x i32> @expand3(<4 x i32> %a ) {
  ;
  ; KNL64-LABEL: expand3:
  ; KNL64:       # BB#0:
-; KNL64-NEXT:    # kill: %XMM0<def> %XMM0<kill> %YMM0<def>
  ; KNL64-NEXT:    vpbroadcastq %xmm0, %ymm0
  ; KNL64-NEXT:    vpxor %ymm1, %ymm1, %ymm1
  ; KNL64-NEXT:    vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6],ymm0[7]
@@ -142,7 +141,6 @@ define <8 x i32> @expand3(<4 x i32> %a ) {
  ;
  ; KNL32-LABEL: expand3:
  ; KNL32:       # BB#0:
-; KNL32-NEXT:    # kill: %XMM0<def> %XMM0<kill> %YMM0<def>
  ; KNL32-NEXT:    vpbroadcastq %xmm0, %ymm0
  ; KNL32-NEXT:    vpxor %ymm1, %ymm1, %ymm1
  ; KNL32-NEXT:    vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6],ymm0[7]
diff --git a/test/CodeGen/X86/widened-broadcast.ll b/test/CodeGen/X86/widened-broadcast.ll

index 5bce383d9bf18f6f9b206f928ae657d3ee180d20..900a7546f15b9d5cd24888b35d19831470755486 100644 (file)
--- a/test/CodeGen/X86/widened-broadcast.ll
+++ b/test/CodeGen/X86/widened-broadcast.ll
@@ -51,14 +51,12 @@ define <8 x float> @load_splat_8f32_4f32_01010101(<4 x float>* %ptr) nounwind uw
  ;
  ; AVX2-LABEL: load_splat_8f32_4f32_01010101:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovaps (%rdi), %xmm0
-; AVX2-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX2-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_8f32_4f32_01010101:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovaps (%rdi), %xmm0
-; AVX512-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX512-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <4 x float>, <4 x float>* %ptr
@@ -131,14 +129,12 @@ define <8 x i32> @load_splat_8i32_4i32_01010101(<4 x i32>* %ptr) nounwind uwtabl
  ;
  ; AVX2-LABEL: load_splat_8i32_4i32_01010101:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovaps (%rdi), %xmm0
-; AVX2-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX2-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_8i32_4i32_01010101:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovaps (%rdi), %xmm0
-; AVX512-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX512-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <4 x i32>, <4 x i32>* %ptr
@@ -242,14 +238,12 @@ define <16 x i16> @load_splat_16i16_8i16_0101010101010101(<8 x i16>* %ptr) nounw
  ;
  ; AVX2-LABEL: load_splat_16i16_8i16_0101010101010101:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovaps (%rdi), %xmm0
-; AVX2-NEXT:    vbroadcastss %xmm0, %ymm0
+; AVX2-NEXT:    vbroadcastss (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_16i16_8i16_0101010101010101:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovaps (%rdi), %xmm0
-; AVX512-NEXT:    vbroadcastss %xmm0, %ymm0
+; AVX512-NEXT:    vbroadcastss (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <8 x i16>, <8 x i16>* %ptr
@@ -272,14 +266,12 @@ define <16 x i16> @load_splat_16i16_8i16_0123012301230123(<8 x i16>* %ptr) nounw
  ;
  ; AVX2-LABEL: load_splat_16i16_8i16_0123012301230123:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovaps (%rdi), %xmm0
-; AVX2-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX2-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_16i16_8i16_0123012301230123:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovaps (%rdi), %xmm0
-; AVX512-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX512-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <8 x i16>, <8 x i16>* %ptr
@@ -442,14 +434,12 @@ define <32 x i8> @load_splat_32i8_16i8_01010101010101010101010101010101(<16 x i8
  ;
  ; AVX2-LABEL: load_splat_32i8_16i8_01010101010101010101010101010101:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovdqa (%rdi), %xmm0
-; AVX2-NEXT:    vpbroadcastw %xmm0, %ymm0
+; AVX2-NEXT:    vpbroadcastw (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_32i8_16i8_01010101010101010101010101010101:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
-; AVX512-NEXT:    vpbroadcastw %xmm0, %ymm0
+; AVX512-NEXT:    vpbroadcastw (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <16 x i8>, <16 x i8>* %ptr
@@ -472,14 +462,12 @@ define <32 x i8> @load_splat_32i8_16i8_01230123012301230123012301230123(<16 x i8
  ;
  ; AVX2-LABEL: load_splat_32i8_16i8_01230123012301230123012301230123:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovaps (%rdi), %xmm0
-; AVX2-NEXT:    vbroadcastss %xmm0, %ymm0
+; AVX2-NEXT:    vbroadcastss (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_32i8_16i8_01230123012301230123012301230123:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovaps (%rdi), %xmm0
-; AVX512-NEXT:    vbroadcastss %xmm0, %ymm0
+; AVX512-NEXT:    vbroadcastss (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <16 x i8>, <16 x i8>* %ptr
@@ -502,14 +490,12 @@ define <32 x i8> @load_splat_32i8_16i8_01234567012345670123456701234567(<16 x i8
  ;
  ; AVX2-LABEL: load_splat_32i8_16i8_01234567012345670123456701234567:
  ; AVX2:       # BB#0: # %entry
-; AVX2-NEXT:    vmovaps (%rdi), %xmm0
-; AVX2-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX2-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX2-NEXT:    retq
  ;
  ; AVX512-LABEL: load_splat_32i8_16i8_01234567012345670123456701234567:
  ; AVX512:       # BB#0: # %entry
-; AVX512-NEXT:    vmovaps (%rdi), %xmm0
-; AVX512-NEXT:    vbroadcastsd %xmm0, %ymm0
+; AVX512-NEXT:    vbroadcastsd (%rdi), %ymm0
  ; AVX512-NEXT:    retq
  entry:
    %ld = load <16 x i8>, <16 x i8>* %ptr
author	Craig Topper <craig.topper@gmail.com>
	Wed, 15 Feb 2017 06:58:47 +0000 (06:58 +0000)
committer	Craig Topper <craig.topper@gmail.com>
	Wed, 15 Feb 2017 06:58:47 +0000 (06:58 +0000)
lib/Target/X86/X86ISelLowering.cpp		patch \| blob \| history
test/CodeGen/X86/masked_gather_scatter.ll		patch \| blob \| history
test/CodeGen/X86/vector-shuffle-avx512.ll		patch \| blob \| history
test/CodeGen/X86/widened-broadcast.ll		patch \| blob \| history