AMDGPU/R600: Serialize vector trunc stores to private AS

author Jan Vesely <jan.vesely@rutgers.edu>

Fri, 20 Jan 2017 21:24:26 +0000 (21:24 +0000)

committer Jan Vesely <jan.vesely@rutgers.edu>

Fri, 20 Jan 2017 21:24:26 +0000 (21:24 +0000)
author Jan Vesely <jan.vesely@rutgers.edu>
Fri, 20 Jan 2017 21:24:26 +0000 (21:24 +0000)
committer Jan Vesely <jan.vesely@rutgers.edu>
Fri, 20 Jan 2017 21:24:26 +0000 (21:24 +0000)
diff --git a/lib/Target/AMDGPU/AMDGPUISelLowering.cpp b/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

index 07f627aab8bb1b7d78beb66e08eaf153b344d08f..54caa2c5dfade7aaad6a4593aec37d6e5b3d06f4 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
+++ b/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
@@ -3278,6 +3278,7 @@ const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
    NODE_NAME_CASE(CONST_DATA_PTR)
    NODE_NAME_CASE(PC_ADD_REL_OFFSET)
    NODE_NAME_CASE(KILL)
+  NODE_NAME_CASE(DUMMY_CHAIN)
    case AMDGPUISD::FIRST_MEM_OPCODE_NUMBER: break;
    NODE_NAME_CASE(SENDMSG)
    NODE_NAME_CASE(SENDMSGHALT)
diff --git a/lib/Target/AMDGPU/AMDGPUISelLowering.h b/lib/Target/AMDGPU/AMDGPUISelLowering.h

index 171b043585041f5c37e8fb8b0693f5b7cf3872f2..f6adceac6f1133644917837031fe6c0d716fff1a 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUISelLowering.h
+++ b/lib/Target/AMDGPU/AMDGPUISelLowering.h
@@ -330,6 +330,7 @@ enum NodeType : unsigned {
    INTERP_P2,
    PC_ADD_REL_OFFSET,
    KILL,
+  DUMMY_CHAIN,
    FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,
    STORE_MSKOR,
    LOAD_CONSTANT,
diff --git a/lib/Target/AMDGPU/AMDGPUInstrInfo.td b/lib/Target/AMDGPU/AMDGPUInstrInfo.td

index c65db5779d79c55d707496cad8c973b63e79533e..cfef17572773efe52501d664736c5a6b6d7bd723 100644 (file)
--- a/lib/Target/AMDGPU/AMDGPUInstrInfo.td
+++ b/lib/Target/AMDGPU/AMDGPUInstrInfo.td
@@ -54,6 +54,9 @@ def AMDGPUconstdata_ptr : SDNode<
  // This argument to this node is a dword address.
  def AMDGPUdwordaddr : SDNode<"AMDGPUISD::DWORDADDR", SDTIntUnaryOp>;
  
+// Force dependencies for vector trunc stores
+def R600dummy_chain : SDNode<"AMDGPUISD::DUMMY_CHAIN", SDTNone, [SDNPHasChain]>;
+
  def AMDGPUcos : SDNode<"AMDGPUISD::COS_HW", SDTFPUnaryOp>;
  def AMDGPUsin : SDNode<"AMDGPUISD::SIN_HW", SDTFPUnaryOp>;
  
diff --git a/lib/Target/AMDGPU/R600ISelLowering.cpp b/lib/Target/AMDGPU/R600ISelLowering.cpp

index b04e954550d84e68020f57bee65c1550953c43e2..31c08d0cd2a869b94aaab08018a9f500239dc276 100644 (file)
--- a/lib/Target/AMDGPU/R600ISelLowering.cpp
+++ b/lib/Target/AMDGPU/R600ISelLowering.cpp
@@ -1120,7 +1120,10 @@ SDValue R600TargetLowering::lowerPrivateTruncStore(StoreSDNode *Store,
      llvm_unreachable("Unsupported private trunc store");
    }
  
-  SDValue Chain = Store->getChain();
+  SDValue OldChain = Store->getChain();
+  bool VectorTrunc = (OldChain.getOpcode() == AMDGPUISD::DUMMY_CHAIN);
+  // Skip dummy
+  SDValue Chain = VectorTrunc ? OldChain->getOperand(0) : OldChain;
    SDValue BasePtr = Store->getBasePtr();
    SDValue Offset = Store->getOffset();
    EVT MemVT = Store->getMemoryVT();
@@ -1176,7 +1179,15 @@ SDValue R600TargetLowering::lowerPrivateTruncStore(StoreSDNode *Store,
  
    // Store dword
    // TODO: Can we be smarter about MachinePointerInfo?
-  return DAG.getStore(Chain, DL, Value, Ptr, MachinePointerInfo());
+  SDValue NewStore = DAG.getStore(Chain, DL, Value, Ptr, MachinePointerInfo());
+
+  // If we are part of expanded vector, make our neighbors depend on this store
+  if (VectorTrunc) {
+    // Make all other vector elements depend on this store
+    Chain = DAG.getNode(AMDGPUISD::DUMMY_CHAIN, DL, MVT::Other, NewStore);
+    DAG.ReplaceAllUsesOfValueWith(OldChain, Chain);
+  }
+  return NewStore;
  }
  
  SDValue R600TargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
@@ -1196,6 +1207,17 @@ SDValue R600TargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
    // Neither LOCAL nor PRIVATE can do vectors at the moment
    if ((AS == AMDGPUAS::LOCAL_ADDRESS || AS == AMDGPUAS::PRIVATE_ADDRESS) &&
        VT.isVector()) {
+    if ((AS == AMDGPUAS::PRIVATE_ADDRESS) && StoreNode->isTruncatingStore()) {
+      // Add an extra level of chain to isolate this vector
+      SDValue NewChain = DAG.getNode(AMDGPUISD::DUMMY_CHAIN, DL, MVT::Other, Chain);
+      // TODO: can the chain be replaced without creating a new store?
+      SDValue NewStore = DAG.getTruncStore(
+          NewChain, DL, Value, Ptr, StoreNode->getPointerInfo(),
+          MemVT, StoreNode->getAlignment(),
+          StoreNode->getMemOperand()->getFlags(), StoreNode->getAAInfo());
+      StoreNode = cast<StoreSDNode>(NewStore);
+    }
+
      return scalarizeVectorStore(StoreNode, DAG);
    }
  
@@ -1230,7 +1252,7 @@ SDValue R600TargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
        // Put the mask in correct place
        SDValue Mask = DAG.getNode(ISD::SHL, DL, VT, MaskConstant, BitShift);
  
-      // Put the mask in correct place
+      // Put the value bits in correct place
        SDValue TruncValue = DAG.getNode(ISD::AND, DL, VT, Value, MaskConstant);
        SDValue ShiftedValue = DAG.getNode(ISD::SHL, DL, VT, TruncValue, BitShift);
  
diff --git a/lib/Target/AMDGPU/R600Instructions.td b/lib/Target/AMDGPU/R600Instructions.td

index 19795bdde64732ee268d9e29471deaea572a279d..9210e66b0fe76e6ad54d75a353c76e0fca94ccf2 100644 (file)
--- a/lib/Target/AMDGPU/R600Instructions.td
+++ b/lib/Target/AMDGPU/R600Instructions.td
@@ -727,6 +727,20 @@ def FLOOR : R600_1OP_Helper <0x14, "FLOOR", ffloor>;
  
  def MOV : R600_1OP <0x19, "MOV", []>;
  
+
+// This is a hack to get rid of DUMMY_CHAIN nodes.
+// Most DUMMY_CHAINs should be eliminated during legalization, but undef
+// values can sneak in some to selection.
+let isPseudo = 1, isCodeGenOnly = 1 in {
+def DUMMY_CHAIN : AMDGPUInst <
+  (outs),
+  (ins),
+  "DUMMY_CHAIN",
+  [(R600dummy_chain)]
+>;
+} // end let isPseudo = 1, isCodeGenOnly = 1
+
+
  let isPseudo = 1, isCodeGenOnly = 1, usesCustomInserter = 1 in {
  
  class MOV_IMM <ValueType vt, Operand immType> : AMDGPUInst <
diff --git a/test/CodeGen/AMDGPU/load-local-i8.ll b/test/CodeGen/AMDGPU/load-local-i8.ll

index 02b59e89c3f34485b56a4c92b4ddb30cf2166038..6fd6f4d0d5925bff75d0b30c6e2b44e85df21ab4 100644 (file)
--- a/test/CodeGen/AMDGPU/load-local-i8.ll
+++ b/test/CodeGen/AMDGPU/load-local-i8.ll
@@ -708,10 +708,11 @@ define void @local_zextload_v4i8_to_v4i16(<4 x i16> addrspace(3)* %out, <4 x i8>
  ; FUNC-LABEL: {{^}}local_sextload_v4i8_to_v4i16:
  
  ; EG: LDS_READ_RET
+; TODO: these do LSHR + BFE_INT, instead of just BFE_INT/ASHR
+; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
-; EG-DAG: ASHR
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
  define void @local_sextload_v4i8_to_v4i16(<4 x i16> addrspace(3)* %out, <4 x i8> addrspace(3)* %in) #0 {
@@ -740,14 +741,15 @@ define void @local_zextload_v8i8_to_v8i16(<8 x i16> addrspace(3)* %out, <8 x i8>
  
  ; EG: LDS_READ_RET
  ; EG: LDS_READ_RET
+; TODO: these do LSHR + BFE_INT, instead of just BFE_INT/ASHR
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
-; EG-DAG: ASHR
-; EG-DAG: ASHR
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
@@ -786,6 +788,11 @@ define void @local_zextload_v16i8_to_v16i16(<16 x i16> addrspace(3)* %out, <16 x
  ; EG: LDS_READ_RET
  ; EG: LDS_READ_RET
  ; EG: LDS_READ_RET
+; TODO: these do LSHR + BFE_INT, instead of just BFE_INT/ASHR
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
@@ -798,10 +805,6 @@ define void @local_zextload_v16i8_to_v16i16(<16 x i16> addrspace(3)* %out, <16 x
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
@@ -860,6 +863,11 @@ define void @local_zextload_v32i8_to_v32i16(<32 x i16> addrspace(3)* %out, <32 x
  ; EG: LDS_READ_RET
  ; EG: LDS_READ_RET
  ; EG: LDS_READ_RET
+; TODO: these do LSHR + BFE_INT, instead of just BFE_INT/ASHR
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
+; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
@@ -884,14 +892,6 @@ define void @local_zextload_v32i8_to_v32i16(<32 x i16> addrspace(3)* %out, <32 x
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
  ; EG-DAG: BFE_INT
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
-; EG-DAG: ASHR
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
  ; EG: LDS_WRITE
author	Jan Vesely <jan.vesely@rutgers.edu>
	Fri, 20 Jan 2017 21:24:26 +0000 (21:24 +0000)
committer	Jan Vesely <jan.vesely@rutgers.edu>
	Fri, 20 Jan 2017 21:24:26 +0000 (21:24 +0000)
lib/Target/AMDGPU/AMDGPUISelLowering.cpp		patch \| blob \| history
lib/Target/AMDGPU/AMDGPUISelLowering.h		patch \| blob \| history
lib/Target/AMDGPU/AMDGPUInstrInfo.td		patch \| blob \| history
lib/Target/AMDGPU/R600ISelLowering.cpp		patch \| blob \| history
lib/Target/AMDGPU/R600Instructions.td		patch \| blob \| history
test/CodeGen/AMDGPU/load-local-i8.ll		patch \| blob \| history