[AMDGPU] Fix DPP operand order in atomic optimizer

author Carl Ritson <carl.ritson@amd.com>

Tue, 5 Mar 2019 12:21:44 +0000 (12:21 +0000)

committer Carl Ritson <carl.ritson@amd.com>

Tue, 5 Mar 2019 12:21:44 +0000 (12:21 +0000)
author Carl Ritson <carl.ritson@amd.com>
Tue, 5 Mar 2019 12:21:44 +0000 (12:21 +0000)
committer Carl Ritson <carl.ritson@amd.com>
Tue, 5 Mar 2019 12:21:44 +0000 (12:21 +0000)
diff --git a/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp b/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp

index 3210df461f568be9916c803a1775450314eefc13..9b732ac96653422d947c327417dc662acb7e861e 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
+++ b/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
@@ -311,7 +311,7 @@ void AMDGPUAtomicOptimizer::optimizeAtomic(Instruction &I,
      }
  
      LaneOffset = B.CreateIntrinsic(Intrinsic::amdgcn_wwm, Ty, NewV);
-    NewV = B.CreateBinOp(Op, NewV, SetInactive);
+    NewV = B.CreateBinOp(Op, SetInactive, NewV);
  
      // Read the value from the last lane, which has accumlated the values of
      // each active lane in the wavefront. This will be our new value with which
diff --git a/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll b/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll

index 88824aa64eec4b1bb05998f2c3e1459cc73d65ee..9a22780b9c4e8c981be19c7b9f3381ea5ae85a70 100644 (file)
--- a/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll
+++ b/test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll
@@ -112,7 +112,7 @@ entry:
  ; GFX7LESS-NOT: v_mbcnt_hi_u32_b32
  ; GFX7LESS-NOT: s_bcnt1_i32_b64
  ; GFX7LESS: buffer_atomic_sub v{{[0-9]+}}
-; GFX8MORE: v_mov_b32_dpp v[[wave_shr1:[0-9]+]], v{{[0-9]+}} wave_shr:1 row_mask:0xf bank_mask:0xf
+; GFX8MORE: v_mov_b32_dpp v[[wave_shr1:[0-9]+]], v[[sub_value:[0-9]+]] wave_shr:1 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:1 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:2 row_mask:0xf bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[wave_shr1]] row_shr:3 row_mask:0xf bank_mask:0xf
@@ -120,7 +120,8 @@ entry:
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_shr:8 row_mask:0xf bank_mask:0xc
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_bcast:15 row_mask:0xa bank_mask:0xf
  ; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v{{[0-9]+}} row_bcast:31 row_mask:0xc bank_mask:0xf
-; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v{{[0-9]+}}, 63
+; GFX8MORE: v_sub_u32_e32 v[[sub_value]],{{( vcc,)?}} v[[sub_value]], v{{[0-9]+}}
+; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v[[sub_value]], 63
  ; GFX8MORE: v_mov_b32{{(_e[0-9]+)?}} v[[value:[0-9]+]], s[[scalar_value]]
  ; GFX8MORE: buffer_atomic_sub v[[value]]
  define amdgpu_kernel void @sub_i32_varying_vdata(i32 addrspace(1)* %out, <4 x i32> %inout) {
diff --git a/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll b/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll

index 644814f4fa024200c597218fe634670bbfb70b9b..201eac172c2312cce99cea4dc019eb4aacf23c5f 100644 (file)
--- a/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll
+++ b/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll
@@ -133,7 +133,9 @@ entry:
  ; GFX7LESS-NOT: v_mbcnt_hi_u32_b32
  ; GFX7LESS-NOT: s_bcnt1_i32_b64
  ; GFX7LESS: buffer_atomic_sub v{{[0-9]+}}
-; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v{{[0-9]+}}, 63
+; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[sub_value:[0-9]+]] wave_shr:1 row_mask:0xf bank_mask:0xf
+; GFX8MORE: v_sub_u32_e32 v[[sub_value]],{{( vcc,)?}} v[[sub_value]], v{{[0-9]+}}
+; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v[[sub_value]], 63
  ; GFX8MORE: v_mov_b32{{(_e[0-9]+)?}} v[[value:[0-9]+]], s[[scalar_value]]
  ; GFX8MORE: buffer_atomic_sub v[[value]]
  define amdgpu_kernel void @sub_i32_varying(i32 addrspace(1)* %out, i32 addrspace(1)* %inout) {
diff --git a/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll b/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

index 3ce91e83cf3341cfe38a4e0472f7f7146766573f..94c6ef85436fbf1a40ba381b6788aff15b8528ac 100644 (file)
--- a/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll
+++ b/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll
@@ -136,7 +136,9 @@ entry:
  ; GFX7LESS-NOT: v_mbcnt_hi_u32_b32
  ; GFX7LESS-NOT: s_bcnt1_i32_b64
  ; GFX7LESS: ds_sub_rtn_u32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
-; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v{{[0-9]+}}, 63
+; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[sub_value:[0-9]+]] wave_shr:1 row_mask:0xf bank_mask:0xf
+; GFX8MORE: v_sub_u32_e32 v[[sub_value]],{{( vcc,)?}} v[[sub_value]], v{{[0-9]+}}
+; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v[[sub_value]], 63
  ; GFX8MORE: v_mov_b32{{(_e[0-9]+)?}} v[[value:[0-9]+]], s[[scalar_value]]
  ; GFX8MORE: ds_sub_rtn_u32 v{{[0-9]+}}, v{{[0-9]+}}, v[[value]]
  define amdgpu_kernel void @sub_i32_varying(i32 addrspace(1)* %out) {
diff --git a/test/CodeGen/AMDGPU/atomic_optimizations_raw_buffer.ll b/test/CodeGen/AMDGPU/atomic_optimizations_raw_buffer.ll

index c2db5547201f966b23667c621c68db49071df95d..f7980cc8691188cd846981bff1a857d4a947d153 100644 (file)
--- a/test/CodeGen/AMDGPU/atomic_optimizations_raw_buffer.ll
+++ b/test/CodeGen/AMDGPU/atomic_optimizations_raw_buffer.ll
@@ -104,7 +104,9 @@ entry:
  ; GFX7LESS-NOT: v_mbcnt_hi_u32_b32
  ; GFX7LESS-NOT: s_bcnt1_i32_b64
  ; GFX7LESS: buffer_atomic_sub v{{[0-9]+}}
-; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v{{[0-9]+}}, 63
+; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[sub_value:[0-9]+]] wave_shr:1 row_mask:0xf bank_mask:0xf
+; GFX8MORE: v_sub_u32_e32 v[[sub_value]],{{( vcc,)?}} v[[sub_value]], v{{[0-9]+}}
+; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v[[sub_value]], 63
  ; GFX8MORE: v_mov_b32{{(_e[0-9]+)?}} v[[value:[0-9]+]], s[[scalar_value]]
  ; GFX8MORE: buffer_atomic_sub v[[value]]
  define amdgpu_kernel void @sub_i32_varying_vdata(i32 addrspace(1)* %out, <4 x i32> %inout) {
diff --git a/test/CodeGen/AMDGPU/atomic_optimizations_struct_buffer.ll b/test/CodeGen/AMDGPU/atomic_optimizations_struct_buffer.ll

index eb3f0ab17ac83588b7fc947faf3693b28b236b6b..47fed39cdec23abe80395d37ea32aee3f87ac186 100644 (file)
--- a/test/CodeGen/AMDGPU/atomic_optimizations_struct_buffer.ll
+++ b/test/CodeGen/AMDGPU/atomic_optimizations_struct_buffer.ll
@@ -117,7 +117,9 @@ entry:
  ; GFX7LESS-NOT: v_mbcnt_hi_u32_b32
  ; GFX7LESS-NOT: s_bcnt1_i32_b64
  ; GFX7LESS: buffer_atomic_sub v{{[0-9]+}}
-; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v{{[0-9]+}}, 63
+; GFX8MORE: v_mov_b32_dpp v{{[0-9]+}}, v[[sub_value:[0-9]+]] wave_shr:1 row_mask:0xf bank_mask:0xf
+; GFX8MORE: v_sub_u32_e32 v[[sub_value]],{{( vcc,)?}} v[[sub_value]], v{{[0-9]+}}
+; GFX8MORE: v_readlane_b32 s[[scalar_value:[0-9]+]], v[[sub_value]], 63
  ; GFX8MORE: v_mov_b32{{(_e[0-9]+)?}} v[[value:[0-9]+]], s[[scalar_value]]
  ; GFX8MORE: buffer_atomic_sub v[[value]]
  define amdgpu_kernel void @sub_i32_varying_vdata(i32 addrspace(1)* %out, <4 x i32> %inout) {
author	Carl Ritson <carl.ritson@amd.com>
	Tue, 5 Mar 2019 12:21:44 +0000 (12:21 +0000)
committer	Carl Ritson <carl.ritson@amd.com>
	Tue, 5 Mar 2019 12:21:44 +0000 (12:21 +0000)
lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp		patch \| blob \| history
test/CodeGen/AMDGPU/atomic_optimizations_buffer.ll		patch \| blob \| history
test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll		patch \| blob \| history
test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll		patch \| blob \| history
test/CodeGen/AMDGPU/atomic_optimizations_raw_buffer.ll		patch \| blob \| history
test/CodeGen/AMDGPU/atomic_optimizations_struct_buffer.ll		patch \| blob \| history