AMDGPU: Make auto waitcnt before barrier a feature

author Konstantin Zhuravlyov <kzhuravl_dev@outlook.com>

Fri, 2 Jun 2017 17:40:26 +0000 (17:40 +0000)

committer Konstantin Zhuravlyov <kzhuravl_dev@outlook.com>

Fri, 2 Jun 2017 17:40:26 +0000 (17:40 +0000)
author Konstantin Zhuravlyov <kzhuravl_dev@outlook.com>
Fri, 2 Jun 2017 17:40:26 +0000 (17:40 +0000)
committer Konstantin Zhuravlyov <kzhuravl_dev@outlook.com>
Fri, 2 Jun 2017 17:40:26 +0000 (17:40 +0000)
diff --git a/lib/Target/AMDGPU/AMDGPU.td b/lib/Target/AMDGPU/AMDGPU.td

index e7ebb37a9d62e65c760c446387e352d73217d70d..b50e8d1d659eb171bbbff4cdb822b74fb633e00f 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPU.td
+++ b/lib/Target/AMDGPU/AMDGPU.td
@@ -365,6 +365,13 @@ def FeatureFlatForGlobal : SubtargetFeature<"flat-for-global",
    "Force to generate flat instruction for global"
  >;
  
+def FeatureAutoWaitcntBeforeBarrier : SubtargetFeature <
+  "auto-waitcnt-before-barrier",
+  "AutoWaitcntBeforeBarrier",
+  "true",
+  "Hardware automatically inserts waitcnt before barrier"
+>;
+
  // Dummy feature used to disable assembler instructions.
  def FeatureDisable : SubtargetFeature<"",
    "FeatureDisable","true",
diff --git a/lib/Target/AMDGPU/AMDGPUSubtarget.cpp b/lib/Target/AMDGPU/AMDGPUSubtarget.cpp

index 6e301b4ad527a8cb5b00a73dfb54a4b726180a9c..8d157e2f98f2470210a5876c68110a2b9c0824d8 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUSubtarget.cpp
+++ b/lib/Target/AMDGPU/AMDGPUSubtarget.cpp
@@ -91,6 +91,7 @@ AMDGPUSubtarget::AMDGPUSubtarget(const Triple &TT, StringRef GPU, StringRef FS,
      FPExceptions(false),
      DX10Clamp(false),
      FlatForGlobal(false),
+    AutoWaitcntBeforeBarrier(false),
      UnalignedScratchAccess(false),
      UnalignedBufferAccess(false),
  
diff --git a/lib/Target/AMDGPU/AMDGPUSubtarget.h b/lib/Target/AMDGPU/AMDGPUSubtarget.h

index 4f397ad1c48dd9dd0d0c262ec54f3f3030a2b75d..ed9cbb994fad9ebaba6512aca45e1640882e39c4 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUSubtarget.h
+++ b/lib/Target/AMDGPU/AMDGPUSubtarget.h
@@ -110,6 +110,7 @@ protected:
    bool FPExceptions;
    bool DX10Clamp;
    bool FlatForGlobal;
+  bool AutoWaitcntBeforeBarrier;
    bool UnalignedScratchAccess;
    bool UnalignedBufferAccess;
    bool HasApertureRegs;
@@ -364,6 +365,10 @@ public:
      return FlatForGlobal;
    }
  
+  bool hasAutoWaitcntBeforeBarrier() const {
+    return AutoWaitcntBeforeBarrier;
+  }
+
    bool hasUnalignedBufferAccess() const {
      return UnalignedBufferAccess;
    }
@@ -728,12 +733,6 @@ public:
    /// Return the maximum number of waves per SIMD for kernels using \p VGPRs VGPRs
    unsigned getOccupancyWithNumVGPRs(unsigned VGPRs) const;
  
-  /// \returns True if waitcnt instruction is needed before barrier instruction,
-  /// false otherwise.
-  bool needWaitcntBeforeBarrier() const {
-    return true;
-  }
-
    /// \returns true if the flat_scratch register should be initialized with the
    /// pointer to the wave's scratch memory rather than a size and offset.
    bool flatScratchIsPointer() const {
diff --git a/lib/Target/AMDGPU/SIInsertWaitcnts.cpp b/lib/Target/AMDGPU/SIInsertWaitcnts.cpp

index e22166d03e9aeefe0d7aada584866ae30e42707c..c10badba88f3cb04ea48fab13dea930f0757692b 100644 (file)
--- a/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
+++ b/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
@@ -1009,7 +1009,8 @@ MachineInstr *SIInsertWaitcnts::generateSWaitCntInstBefore(
    // occurs before the instruction. Doing it here prevents any additional
    // S_WAITCNTs from being emitted if the instruction was marked as
    // requiring a WAITCNT beforehand.
-  if (MI.getOpcode() == AMDGPU::S_BARRIER && ST->needWaitcntBeforeBarrier()) {
+  if (MI.getOpcode() == AMDGPU::S_BARRIER &&
+      !ST->hasAutoWaitcntBeforeBarrier()) {
      EmitSwaitcnt |=
          ScoreBrackets->updateByWait(VM_CNT, ScoreBrackets->getScoreUB(VM_CNT));
      EmitSwaitcnt |= ScoreBrackets->updateByWait(
diff --git a/lib/Target/AMDGPU/SIInsertWaits.cpp b/lib/Target/AMDGPU/SIInsertWaits.cpp

index 9f32ecfa52ff1e7a74b2164e6429d06336137df7..bc86515d8b1fe835dde29a43e37699f2f1299b3a 100644 (file)
--- a/lib/Target/AMDGPU/SIInsertWaits.cpp
+++ b/lib/Target/AMDGPU/SIInsertWaits.cpp
@@ -630,7 +630,7 @@ bool SIInsertWaits::runOnMachineFunction(MachineFunction &MF) {
        // but we also want to wait for any other outstanding transfers before
        // signalling other hardware blocks
        if ((I->getOpcode() == AMDGPU::S_BARRIER &&
-               ST->needWaitcntBeforeBarrier()) ||
+               !ST->hasAutoWaitcntBeforeBarrier()) ||
             I->getOpcode() == AMDGPU::S_SENDMSG ||
             I->getOpcode() == AMDGPU::S_SENDMSGHALT)
          Required = LastIssued;
diff --git a/test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll b/test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll

index ef9cda142850bcb2ae57a9a53d9c7a0ac694404c..3d815cca5be2d7b14db48ec235ff66f3877f558d 100644 (file)
--- a/test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll
+++ b/test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll
@@ -1,10 +1,13 @@
-; RUN: llc -march=amdgcn -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=GFX8 %s
-; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=GFX9 %s
+; RUN: llc -march=amdgcn -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=GFX8 -check-prefix=NOAUTO %s
+; RUN: llc -march=amdgcn -mattr=+auto-waitcnt-before-barrier -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=GFX8 -check-prefix=AUTO %s
+; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=NOAUTO %s
+; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+auto-waitcnt-before-barrier -verify-machineinstrs < %s | FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=AUTO %s
  
  ; GCN-LABEL: {{^}}test_barrier:
  ; GFX8: buffer_store_dword
  ; GFX9: flat_store_dword
-; GCN: s_waitcnt
+; NOAUTO: s_waitcnt
+; AUTO-NOT: s_waitcnt
  ; GCN: s_barrier
  define amdgpu_kernel void @test_barrier(i32 addrspace(1)* %out, i32 %size) #0 {
  entry:
author	Konstantin Zhuravlyov <kzhuravl_dev@outlook.com>
	Fri, 2 Jun 2017 17:40:26 +0000 (17:40 +0000)
committer	Konstantin Zhuravlyov <kzhuravl_dev@outlook.com>
	Fri, 2 Jun 2017 17:40:26 +0000 (17:40 +0000)
lib/Target/AMDGPU/AMDGPU.td		patch \| blob \| history
lib/Target/AMDGPU/AMDGPUSubtarget.cpp		patch \| blob \| history
lib/Target/AMDGPU/AMDGPUSubtarget.h		patch \| blob \| history
lib/Target/AMDGPU/SIInsertWaitcnts.cpp		patch \| blob \| history
lib/Target/AMDGPU/SIInsertWaits.cpp		patch \| blob \| history
test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll		patch \| blob \| history