AMDGPU/GlobalISel: Add support for init.exec intrinsics

author Matt Arsenault <Matthew.Arsenault@amd.com>

Tue, 1 Oct 2019 02:07:25 +0000 (02:07 +0000)

committer Matt Arsenault <Matthew.Arsenault@amd.com>

Tue, 1 Oct 2019 02:07:25 +0000 (02:07 +0000)
author Matt Arsenault <Matthew.Arsenault@amd.com>
Tue, 1 Oct 2019 02:07:25 +0000 (02:07 +0000)
committer Matt Arsenault <Matthew.Arsenault@amd.com>
Tue, 1 Oct 2019 02:07:25 +0000 (02:07 +0000)
diff --git a/lib/Target/AMDGPU/AMDGPUGISel.td b/lib/Target/AMDGPU/AMDGPUGISel.td

index 944f782db244d6cfec7adbb1dadbba0743c799dd..6ee11686f4859cd1f9554f801354b9aa3ce12aae 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUGISel.td
+++ b/lib/Target/AMDGPU/AMDGPUGISel.td
@@ -202,3 +202,6 @@ def : GISelVop2Pat <or, V_OR_B32_e32, i32>;
  foreach Ty = [i64, p0, p1, p4] in {
    defm : SMRD_Pattern <"S_LOAD_DWORDX2",  Ty>;
  }
+
+def gi_as_i32timm : GICustomOperandRenderer<"renderTruncImm32">,
+  GISDNodeXFormEquiv<as_i32timm>;
diff --git a/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp b/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

index d808cc0ea338ea5fcdfc89bc9cb01d06fb171c20..4b186c2c8ab07c8de61a5156e2b0addf427ebc40 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
+++ b/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
@@ -2094,3 +2094,12 @@ AMDGPUInstructionSelector::selectDS1Addr1Offset(MachineOperand &Root) const {
        [=](MachineInstrBuilder &MIB) { MIB.addImm(0); }
      }};
  }
+
+void AMDGPUInstructionSelector::renderTruncImm32(MachineInstrBuilder &MIB,
+                                                 const MachineInstr &MI) const {
+  const MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
+  assert(MI.getOpcode() == TargetOpcode::G_CONSTANT && "Expected G_CONSTANT");
+  Optional<int64_t> CstVal = getConstantVRegVal(MI.getOperand(0).getReg(), MRI);
+  assert(CstVal && "Expected constant value");
+  MIB.addImm(CstVal.getValue());
+}
diff --git a/lib/Target/AMDGPU/AMDGPUInstructionSelector.h b/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

index 5bff93c8a00244bbd5878bd317aa3d8c28d7844e..4aadcd9dc204acada6427da375e5375d651f5d35 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUInstructionSelector.h
+++ b/lib/Target/AMDGPU/AMDGPUInstructionSelector.h
@@ -163,6 +163,9 @@ private:
    InstructionSelector::ComplexRendererFns
    selectDS1Addr1Offset(MachineOperand &Root) const;
  
+  void renderTruncImm32(MachineInstrBuilder &MIB,
+                        const MachineInstr &MI) const;
+
    const SIInstrInfo &TII;
    const SIRegisterInfo &TRI;
    const AMDGPURegisterBankInfo &RBI;
diff --git a/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp b/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

index da690c37c5651897012e25d19bc0a287bf08418e..49a4c7b26b74f482c9e881def1c767335a5d6473 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
+++ b/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
@@ -2605,7 +2605,8 @@ AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const {
        OpdsMapping[2] = AMDGPU::getValueMapping(Bank, 32);
        break;
      }
-    case Intrinsic::amdgcn_end_cf: {
+    case Intrinsic::amdgcn_end_cf:
+    case Intrinsic::amdgcn_init_exec: {
        unsigned Size = getSizeInBits(MI.getOperand(1).getReg(), MRI, *TRI);
        OpdsMapping[1] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);
        break;
@@ -2658,6 +2659,12 @@ AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const {
        OpdsMapping[5] = getSGPROpMapping(MI.getOperand(5).getReg(), MRI, *TRI);
        break;
      }
+    case Intrinsic::amdgcn_init_exec_from_input: {
+      unsigned Size = getSizeInBits(MI.getOperand(1).getReg(), MRI, *TRI);
+      OpdsMapping[1] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);
+      OpdsMapping[2] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);
+      break;
+    }
      default:
        if (const AMDGPU::RsrcIntrinsic *RSrcIntrin =
                AMDGPU::lookupRsrcIntrinsic(IntrID)) {
diff --git a/lib/Target/AMDGPU/SIInstrInfo.td b/lib/Target/AMDGPU/SIInstrInfo.td

index 95bba738f1a96949f086669b5960211e66b449aa..e1b32c4964c452811cf78abbe57310f63754b218 100644 (file)
--- a/lib/Target/AMDGPU/SIInstrInfo.td
+++ b/lib/Target/AMDGPU/SIInstrInfo.td
@@ -689,6 +689,10 @@ def as_i32imm: SDNodeXForm<imm, [{
    return CurDAG->getTargetConstant(N->getSExtValue(), SDLoc(N), MVT::i32);
  }]>;
  
+def as_i32timm: SDNodeXForm<timm, [{
+  return CurDAG->getTargetConstant(N->getSExtValue(), SDLoc(N), MVT::i32);
+}]>;
+
  def as_i64imm: SDNodeXForm<imm, [{
    return CurDAG->getTargetConstant(N->getSExtValue(), SDLoc(N), MVT::i64);
  }]>;
@@ -728,6 +732,10 @@ def UIMM16bit : ImmLeaf <i32,
    [{return isUInt<16>(Imm);}]
  >;
  
+def i64imm_32bit : ImmLeaf<i64, [{
+  return (Imm & 0xffffffffULL) == static_cast<uint64_t>(Imm);
+}]>;
+
  class InlineImm <ValueType vt> : PatLeaf <(vt imm), [{
    return isInlineImmediate(N);
  }]>;
diff --git a/lib/Target/AMDGPU/SIInstructions.td b/lib/Target/AMDGPU/SIInstructions.td

index 3c0cc0051c6822887700485caedb1e5d86041b8a..d56af2977521b57a4546b00449c3f40dfad2a84f 100644 (file)
--- a/lib/Target/AMDGPU/SIInstructions.td
+++ b/lib/Target/AMDGPU/SIInstructions.td
@@ -349,7 +349,8 @@ def SI_INIT_M0 : SPseudoInstSI <(outs), (ins SSrc_b32:$src)> {
  }
  
  def SI_INIT_EXEC : SPseudoInstSI <
-  (outs), (ins i64imm:$src), []> {
+  (outs), (ins i64imm:$src),
+  [(int_amdgcn_init_exec (i64 timm:$src))]> {
    let Defs = [EXEC];
    let usesCustomInserter = 1;
    let isAsCheapAsAMove = 1;
@@ -365,12 +366,20 @@ def SI_INIT_EXEC_LO : SPseudoInstSI <
    let WaveSizePredicate = isWave32;
  }
  
+// FIXME: Wave32 version
  def SI_INIT_EXEC_FROM_INPUT : SPseudoInstSI <
-  (outs), (ins SSrc_b32:$input, i32imm:$shift), []> {
+  (outs), (ins SSrc_b32:$input, i32imm:$shift),
+  [(int_amdgcn_init_exec_from_input i32:$input, (i32 timm:$shift))]> {
    let Defs = [EXEC];
    let usesCustomInserter = 1;
  }
  
+def : GCNPat <
+  (int_amdgcn_init_exec timm:$src),
+  (SI_INIT_EXEC_LO (as_i32imm imm:$src))> {
+  let WaveSizePredicate = isWave32;
+}
+
  // Return for returning shaders to a shader variant epilog.
  def SI_RETURN_TO_EPILOG : SPseudoInstSI <
    (outs), (ins variable_ops), [(AMDGPUreturn_to_epilog)]> {
@@ -609,23 +618,6 @@ def : GCNPat <
    (SI_PC_ADD_REL_OFFSET $ptr_lo, (i32 0))
  >;
  
-def : GCNPat <
-  (int_amdgcn_init_exec i64:$src),
-  (SI_INIT_EXEC (as_i64imm $src))> {
-  let WaveSizePredicate = isWave64;
-}
-
-def : GCNPat <
-  (int_amdgcn_init_exec i64:$src),
-  (SI_INIT_EXEC_LO (as_i32imm $src))> {
-  let WaveSizePredicate = isWave32;
-}
-
-def : GCNPat <
-  (int_amdgcn_init_exec_from_input i32:$input, i32:$shift),
-  (SI_INIT_EXEC_FROM_INPUT (i32 $input), (as_i32imm $shift))
->;
-
  def : GCNPat<
    (AMDGPUtrap timm:$trapid),
    (S_TRAP $trapid)
diff --git a/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.ll b/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.ll

new file mode 100644 (file)

index 0000000..77c2f80
--- /dev/null
+++ b/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.ll
@@ -0,0 +1,2 @@
+; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %S/../llvm.amdgcn.init.exec.ll | FileCheck -check-prefix=GCN %S/../llvm.amdgcn.init.exec.ll
+; RUN: llc -march=amdgcn -mcpu=gfx1010 -mattr=-wavefrontsize32,+wavefrontsize64 -verify-machineinstrs < %S/../llvm.amdgcn.init.exec.ll | FileCheck -check-prefix=GCN %S/../llvm.amdgcn.init.exec.ll
diff --git a/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.wave32.ll b/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.wave32.ll

new file mode 100644 (file)

index 0000000..1e8fce0
--- /dev/null
+++ b/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.wave32.ll
@@ -0,0 +1,2 @@
+; Runs original SDAG test with -global-isel
+; RUN: llc -march=amdgcn -mcpu=gfx1010 -mattr=+wavefrontsize32,-wavefrontsize64 -verify-machineinstrs < %S/../llvm.amdgcn.init.exec.wave32.ll | FileCheck -check-prefixes=GCN,GFX1032  %S/../llvm.amdgcn.init.exec.wave32.ll
diff --git a/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.ll b/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.ll

index fb79ba8ae4a4fe400a63eb96c365a718c35242db..f3998d9a899d099cbc9cbc26c81fbd3235345f3e 100644 (file)
--- a/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.ll
+++ b/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.ll
@@ -1,4 +1,5 @@
-;RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs | FileCheck %s --check-prefix=GCN
+; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs | FileCheck %s --check-prefix=GCN
+; RUN: llc -march=amdgcn -mcpu=gfx1010 -mattr=-wavefrontsize32,+wavefrontsize64 -verify-machineinstrs < %s | FileCheck -check-prefix=GCN %s
  
  ; GCN-LABEL: {{^}}full_mask:
  ; GCN: s_mov_b64 exec, -1
@@ -51,7 +52,7 @@ main_body:
  ; GCN: s_bfm_b64 exec, s1, 0
  ; GCN: s_cmp_eq_u32 s1, 64
  ; GCN: s_cmov_b64 exec, -1
-; GCN: v_add_u32_e32 v0, s0, v0
+; GCN: v_add{{(_nc)?}}_u32_e32 v0, s0, v0
  define amdgpu_ps float @reuse_input(i32 inreg %count, i32 %a) {
  main_body:
    call void @llvm.amdgcn.init.exec.from.input(i32 %count, i32 19)
@@ -65,7 +66,7 @@ main_body:
  ; GCN: s_bfm_b64 exec, s1, 0
  ; GCN: s_cmp_eq_u32 s1, 64
  ; GCN: s_cmov_b64 exec, -1
-; GCN: v_add_u32_e32 v0, s0, v0
+; GCN: v_add{{(_nc)?}}_u32_e32 v0, s0, v0
  define amdgpu_ps float @reuse_input2(i32 inreg %count, i32 %a) {
  main_body:
    %s = add i32 %a, %count
diff --git a/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.wave32.ll b/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.wave32.ll

new file mode 100644 (file)

index 0000000..3c66f6e
--- /dev/null
+++ b/test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.wave32.ll
@@ -0,0 +1,31 @@
+; RUN: llc -march=amdgcn -mcpu=gfx1010 -mattr=+wavefrontsize32,-wavefrontsize64 -verify-machineinstrs < %s | FileCheck -check-prefixes=GCN,GFX1032 %s
+
+; GCN-LABEL: {{^}}test_init_exec:
+; GFX1032: s_mov_b32 exec_lo, 0x12345
+; GFX1064: s_mov_b64 exec, 0x12345
+; GCN: v_add_f32_e32 v0,
+define amdgpu_ps float @test_init_exec(float %a, float %b) {
+main_body:
+  %s = fadd float %a, %b
+  call void @llvm.amdgcn.init.exec(i64 74565)
+  ret float %s
+}
+
+; GCN-LABEL: {{^}}test_init_exec_from_input:
+; GCN: s_bfe_u32 s0, s3, 0x70008
+; GFX1032: s_bfm_b32 exec_lo, s0, 0
+; GFX1032: s_cmp_eq_u32 s0, 32
+; GFX1032: s_cmov_b32 exec_lo, -1
+; GFX1064: s_bfm_b64 exec, s0, 0
+; GFX1064: s_cmp_eq_u32 s0, 64
+; GFX1064: s_cmov_b64 exec, -1
+; GCN: v_add_f32_e32 v0,
+define amdgpu_ps float @test_init_exec_from_input(i32 inreg, i32 inreg, i32 inreg, i32 inreg %count, float %a, float %b) {
+main_body:
+  %s = fadd float %a, %b
+  call void @llvm.amdgcn.init.exec.from.input(i32 %count, i32 8)
+  ret float %s
+}
+
+declare void @llvm.amdgcn.init.exec(i64)
+declare void @llvm.amdgcn.init.exec.from.input(i32, i32)
diff --git a/test/CodeGen/AMDGPU/wave32.ll b/test/CodeGen/AMDGPU/wave32.ll

index a71ca5db7658dda1cb0378563593e80644993d54..85c79144d0e52d513dde34beb6aa883d64b3f3c8 100644 (file)
--- a/test/CodeGen/AMDGPU/wave32.ll
+++ b/test/CodeGen/AMDGPU/wave32.ll
@@ -871,33 +871,6 @@ endif:
    ret void
  }
  
-; GCN-LABEL: {{^}}test_init_exec:
-; GFX1032: s_mov_b32 exec_lo, 0x12345
-; GFX1064: s_mov_b64 exec, 0x12345
-; GCN: v_add_f32_e32 v0,
-define amdgpu_ps float @test_init_exec(float %a, float %b) {
-main_body:
-  %s = fadd float %a, %b
-  call void @llvm.amdgcn.init.exec(i64 74565)
-  ret float %s
-}
-
-; GCN-LABEL: {{^}}test_init_exec_from_input:
-; GCN: s_bfe_u32 s0, s3, 0x70008
-; GFX1032: s_bfm_b32 exec_lo, s0, 0
-; GFX1032: s_cmp_eq_u32 s0, 32
-; GFX1032: s_cmov_b32 exec_lo, -1
-; GFX1064: s_bfm_b64 exec, s0, 0
-; GFX1064: s_cmp_eq_u32 s0, 64
-; GFX1064: s_cmov_b64 exec, -1
-; GCN: v_add_f32_e32 v0,
-define amdgpu_ps float @test_init_exec_from_input(i32 inreg, i32 inreg, i32 inreg, i32 inreg %count, float %a, float %b) {
-main_body:
-  %s = fadd float %a, %b
-  call void @llvm.amdgcn.init.exec.from.input(i32 %count, i32 8)
-  ret float %s
-}
-
  ; GCN-LABEL: {{^}}test_vgprblocks_w32_attr:
  ; Test that the wave size can be overridden in function attributes and that the block size is correct as a result
  ; GFX10DEFWAVE: ; VGPRBlocks: 1
@@ -1132,8 +1105,6 @@ declare i32 @llvm.amdgcn.icmp.i32.i32(i32, i32, i32)
  declare void @llvm.amdgcn.kill(i1)
  declare i1 @llvm.amdgcn.wqm.vote(i1)
  declare i1 @llvm.amdgcn.ps.live()
-declare void @llvm.amdgcn.init.exec(i64)
-declare void @llvm.amdgcn.init.exec.from.input(i32, i32)
  declare i64 @llvm.cttz.i64(i64, i1)
  declare i32 @llvm.cttz.i32(i32, i1)
author	Matt Arsenault <Matthew.Arsenault@amd.com>
	Tue, 1 Oct 2019 02:07:25 +0000 (02:07 +0000)
committer	Matt Arsenault <Matthew.Arsenault@amd.com>
	Tue, 1 Oct 2019 02:07:25 +0000 (02:07 +0000)
lib/Target/AMDGPU/AMDGPUGISel.td		patch \| blob \| history
lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp		patch \| blob \| history
lib/Target/AMDGPU/AMDGPUInstructionSelector.h		patch \| blob \| history
lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp		patch \| blob \| history
lib/Target/AMDGPU/SIInstrInfo.td		patch \| blob \| history
lib/Target/AMDGPU/SIInstructions.td		patch \| blob \| history
test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.ll	[new file with mode: 0644]	patch \| blob
test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.init.exec.wave32.ll	[new file with mode: 0644]	patch \| blob
test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.ll		patch \| blob \| history
test/CodeGen/AMDGPU/llvm.amdgcn.init.exec.wave32.ll	[new file with mode: 0644]	patch \| blob
test/CodeGen/AMDGPU/wave32.ll		patch \| blob \| history