[AMDGPU] Simplify the exclusive scan used for optimized atomics

author Jay Foad <jay.foad@gmail.com>

Fri, 19 Jul 2019 08:40:37 +0000 (08:40 +0000)

committer Jay Foad <jay.foad@gmail.com>

Fri, 19 Jul 2019 08:40:37 +0000 (08:40 +0000)
author Jay Foad <jay.foad@gmail.com>
Fri, 19 Jul 2019 08:40:37 +0000 (08:40 +0000)
committer Jay Foad <jay.foad@gmail.com>
Fri, 19 Jul 2019 08:40:37 +0000 (08:40 +0000)
diff --git a/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp b/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp

index 8a92e7d923fbc5e40b825625689fe33227ab69e2..2982549357bae0be37e6ebfe6ffd518eb1ccfcb4 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
+++ b/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
@@ -376,26 +376,24 @@ void AMDGPUAtomicOptimizer::optimizeAtomic(Instruction &I,
      CallInst *const SetInactive =
          B.CreateIntrinsic(Intrinsic::amdgcn_set_inactive, Ty, {V, Identity});
  
-    CallInst *const FirstDPP =
+    ExclScan =
          B.CreateIntrinsic(Intrinsic::amdgcn_update_dpp, Ty,
                            {Identity, SetInactive, B.getInt32(DPP_WF_SR1),
                             B.getInt32(0xf), B.getInt32(0xf), B.getFalse()});
-    ExclScan = FirstDPP;
  
-    const unsigned Iters = 7;
-    const unsigned DPPCtrl[Iters] = {
-        DPP_ROW_SR1, DPP_ROW_SR2,     DPP_ROW_SR3,    DPP_ROW_SR4,
-        DPP_ROW_SR8, DPP_ROW_BCAST15, DPP_ROW_BCAST31};
-    const unsigned RowMask[Iters] = {0xf, 0xf, 0xf, 0xf, 0xf, 0xa, 0xc};
-    const unsigned BankMask[Iters] = {0xf, 0xf, 0xf, 0xe, 0xc, 0xf, 0xf};
+    const unsigned Iters = 6;
+    const unsigned DPPCtrl[Iters] = {DPP_ROW_SR1,     DPP_ROW_SR2,
+                                     DPP_ROW_SR4,     DPP_ROW_SR8,
+                                     DPP_ROW_BCAST15, DPP_ROW_BCAST31};
+    const unsigned RowMask[Iters] = {0xf, 0xf, 0xf, 0xf, 0xa, 0xc};
+    const unsigned BankMask[Iters] = {0xf, 0xf, 0xe, 0xc, 0xf, 0xf};
  
      // This loop performs an exclusive scan across the wavefront, with all lanes
      // active (by using the WWM intrinsic).
      for (unsigned Idx = 0; Idx < Iters; Idx++) {
-      Value *const UpdateValue = Idx < 3 ? FirstDPP : ExclScan;
        CallInst *const DPP = B.CreateIntrinsic(
            Intrinsic::amdgcn_update_dpp, Ty,
-          {Identity, UpdateValue, B.getInt32(DPPCtrl[Idx]),
+          {Identity, ExclScan, B.getInt32(DPPCtrl[Idx]),
             B.getInt32(RowMask[Idx]), B.getInt32(BankMask[Idx]), B.getFalse()});
  
        ExclScan = buildNonAtomicBinOp(B, Op, ExclScan, DPP);
diff --git a/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll b/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll

index 88824aa64eec4b1bb05998f2c3e1459cc73d65ee..41240344493ab35cd086148da91aaefc99ebe031 100644 (file)
--- a/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll
+++ b/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll
@@ -47,7 +47,6 @@ entry:
  ; GFX8MORE: v_mov_b32_dpp v[[wave_shr1:[0-9]+]], v{{[0-9]+}} wave_shr:1 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:1 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:2 row_mask:0xf bank_mask:0xf
-; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:3 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_shr:4 row_mask:0xf bank_mask:0xe
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_shr:8 row_mask:0xf bank_mask:0xc
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_bcast:15 row_mask:0xa bank_mask:0xf
@@ -115,7 +114,6 @@ entry:
  ; GFX8MORE: v_mov_b32_dpp v[[wave_shr1:[0-9]+]], v{{[0-9]+}} wave_shr:1 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:1 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:2 row_mask:0xf bank_mask:0xf
-; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:3 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_shr:4 row_mask:0xf bank_mask:0xe
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_shr:8 row_mask:0xf bank_mask:0xc
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_bcast:15 row_mask:0xa bank_mask:0xf
author	Jay Foad <jay.foad@gmail.com>
	Fri, 19 Jul 2019 08:40:37 +0000 (08:40 +0000)
committer	Jay Foad <jay.foad@gmail.com>
	Fri, 19 Jul 2019 08:40:37 +0000 (08:40 +0000)
lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp		patch \| blob \| history
test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll		patch \| blob \| history