UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ > Struct Template Reference

UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ > Struct Template Reference#

Composable Kernel: ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ > Struct Template Reference

The Universal GEMM kernel template. More...

#include <universal_gemm_kernel.hpp>

Classes
struct	has_persistent_kernel

struct	has_tile_partitioner_output_offset_impl

struct	SplitKBatchOffset

Public Types
using	TilePartitioner = remove_cvref_t< TilePartitioner_ >

using	GemmPipeline = remove_cvref_t< GemmPipeline_ >

using	EpiloguePipeline = remove_cvref_t< EpiloguePipeline_ >

using	AsLayout = std::conditional_t< ALayoutIsTuple, remove_cvref_t< typename GemmPipeline::AsLayout >, remove_cvref_t< tuple< typename GemmPipeline::ALayout > >>

using	BsLayout = std::conditional_t< BLayoutIsTuple, remove_cvref_t< typename GemmPipeline::BsLayout >, remove_cvref_t< tuple< typename GemmPipeline::BLayout > >>

using	DsLayout = std::conditional_t< DLayoutIsTuple, remove_cvref_t< typename EpiloguePipeline::DsLayout >, remove_cvref_t< tuple< typename EpiloguePipeline::DsLayout > >>

using	AsDataType = std::conditional_t< ADataTypeIsTuple, remove_cvref_t< typename GemmPipeline::AsDataType >, remove_cvref_t< tuple< typename GemmPipeline::ADataType > >>

using	BsDataType = std::conditional_t< BDataTypeIsTuple, remove_cvref_t< typename GemmPipeline::BsDataType >, remove_cvref_t< tuple< typename GemmPipeline::BDataType > >>

using	DsDataType = std::conditional_t< DDataTypeIsTuple, remove_cvref_t< typename EpiloguePipeline::DsDataType >, remove_cvref_t< tuple< typename EpiloguePipeline::DsDataType > >>

using	CLayout = remove_cvref_t< typename GemmPipeline::CLayout >

using	EDataType = remove_cvref_t< typename EpiloguePipeline::ODataType >

using	AElementWise = remove_cvref_t< typename GemmPipeline::AElementWise >

using	BElementWise = remove_cvref_t< typename GemmPipeline::BElementWise >

using	ADataType = remove_cvref_t< std::tuple_element_t< I0, AsDataType > >

using	BDataType = remove_cvref_t< std::tuple_element_t< I0, BsDataType > >

using	KernelArgs = UniversalGemmKernelArgs< AsLayout::size(), BsLayout::size(), DsLayout::size()>

Public Member Functions
template<bool U = !PersistentKernel, typename = std::enable_if_t<U>>
CK_TILE_DEVICE void	operator() (KernelArgs kargs) const

template<bool U = PersistentKernel, typename = std::enable_if_t<U>, typename = void>
CK_TILE_DEVICE void	operator() (KernelArgs kargs) const

Static Public Member Functions
static CK_TILE_HOST const std::string	GetName ()

static constexpr CK_TILE_HOST auto	GridSize (index_t M, index_t N, index_t KBatch)

static CK_TILE_HOST auto	MaxOccupancyGridSize (const stream_config &s) -> dim3
	Get the maximum occupancy grid size for the persistent kernel on the current device. More...

static CK_TILE_HOST auto	BlockSize ()

static constexpr CK_TILE_HOST KernelArgs	MakeKernelArgs (const UniversalGemmHostArgs< NumATensor, NumBTensor, NumDTensor > &hostArgs)

static constexpr CK_TILE_HOST_DEVICE index_t	GetSmemSize ()

static CK_TILE_HOST bool	IsSupportedArgument (const KernelArgs &kargs)

static CK_TILE_DEVICE auto	MakeABlockWindows (const std::array< const ADataType *, NumATensor > &as_ptr, const KernelArgs &kargs, const index_t k_size, const index_t i_m)

static CK_TILE_DEVICE auto	MakeBBlockWindows (const std::array< const BDataType *, NumBTensor > &bs_ptr, const KernelArgs &kargs, const index_t k_size, const index_t i_n)

static CK_TILE_DEVICE auto	MakeDBlockWindows (const std::array< const void *, NumDTensor > &ds_ptr, const KernelArgs &kargs, const index_t i_m, const index_t i_n)

template<memory_operation_enum DstInMemOp = memory_operation_enum::set>
static CK_TILE_DEVICE auto	MakeCBlockWindows (EDataType *e_ptr, const KernelArgs &kargs, const index_t i_m, const index_t i_n)

template<bool UseDefaultScheduler = true>
static CK_TILE_DEVICE void	RunGemm (const std::array< const ADataType , NumATensor > &as_ptr, const std::array< const BDataType , NumBTensor > &bs_ptr, const std::array< const void , NumDTensor > &ds_ptr, EDataType e_ptr, void *smem_ptr, const KernelArgs &kargs, const SplitKBatchOffset &splitk_batch_offset, const index_t block_idx_m, const index_t block_idx_n)
	Runs single GEMM problem cooperatively by whole workgroup. More...

static CK_TILE_DEVICE auto	GetTileCoordinates (const KernelArgs &kargs) -> tuple< index_t, index_t >

static CK_TILE_DEVICE auto	GetBlockId () -> index_t

static CK_TILE_DEVICE auto	GetGridSize () -> index_t

template<typename... Args>
static CK_TILE_HOST_DEVICE auto	GetNumTiles (Args &&... args) -> index_t

Static Public Attributes
static constexpr bool	ADataTypeIsTuple

static constexpr bool	BDataTypeIsTuple

static constexpr bool	DDataTypeIsTuple

static constexpr bool	ALayoutIsTuple

static constexpr bool	BLayoutIsTuple

static constexpr bool	DLayoutIsTuple

static constexpr index_t	kBlockSize = GemmPipeline::BlockSize

static constexpr bool	PersistentKernel = has_persistent_kernel::value

static constexpr bool	has_tile_partitioner_output_offset

static constexpr auto	I0 = number<0>()

static constexpr auto	I1 = number<1>()

static constexpr auto	I2 = number<2>()

static constexpr auto	I3 = number<3>{}

static constexpr index_t	NumATensor = AsDataType::size()

static constexpr index_t	NumBTensor = BsDataType::size()

static constexpr index_t	NumDTensor = DsDataType::size()

Detailed Description

template<typename TilePartitioner_, typename GemmPipeline_, typename EpiloguePipeline_>
struct ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >

The Universal GEMM kernel template.

Overview

This class provides the generic matrix multiplication kernel template. By semantic division of GEMM algorithm into following parts we achieve flexible, versatile and robust kernel implementation.

Prolog - The start of GEMM kernel implementation in operator() function call operator" which determines the work scope of each workgroup. @li @b GemmPipeline - The core part @a "heart" of matrix multiplication algorithm. This is the place where each workgroup is loading data from global memory and carrying out dot products.
Epilogue - The "final" part of matrix multiplication implementation responsible for storing results to global memory. This is also the place where any additional operator fusion may take place.

Additionally both GemmPipeline and EpiloguePipeline are parameterized with so called Policy which determines all internal details of those functional parts. You can think of it like both gemm and epilogue pipelines provides the control-flow logic controlled by policies. Moreover the policy is responsible for definition of all necessary data layouts and thread's work distribution.

Template Parameters

TilePartitioner_	The type of class providing mapping of workgroup index into the output data tile to be calculated. It determines the workgroup to data relationship (or in other words - which data would be processed and calculated by which workgroup).
GemmPipeline_	The type of class which provides the core part of matrix multiplication. This class should provide implementation of data loading from global memory and performing block-wise matrix multiplication. You can think of it as a work done by single workgroup point of view.
EpiloguePipeline_	The type of class providing the final part of matrix multiplication implementation. It is responsible for storing results calculated by GemmPipeline to the output E tensor in global memory.

Member Typedef Documentation

◆ ADataType

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::ADataType = remove_cvref_t<std::tuple_element_t<I0, AsDataType> >

◆ AElementWise

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::AElementWise = remove_cvref_t<typename GemmPipeline::AElementWise>

◆ AsDataType

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::AsDataType = std::conditional_t<ADataTypeIsTuple, remove_cvref_t<typename GemmPipeline::AsDataType>, remove_cvref_t<tuple<typename GemmPipeline::ADataType> >>

◆ AsLayout

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::AsLayout = std::conditional_t<ALayoutIsTuple, remove_cvref_t<typename GemmPipeline::AsLayout>, remove_cvref_t<tuple<typename GemmPipeline::ALayout> >>

◆ BDataType

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BDataType = remove_cvref_t<std::tuple_element_t<I0, BsDataType> >

◆ BElementWise

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BElementWise = remove_cvref_t<typename GemmPipeline::BElementWise>

◆ BsDataType

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BsDataType = std::conditional_t<BDataTypeIsTuple, remove_cvref_t<typename GemmPipeline::BsDataType>, remove_cvref_t<tuple<typename GemmPipeline::BDataType> >>

◆ BsLayout

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BsLayout = std::conditional_t<BLayoutIsTuple, remove_cvref_t<typename GemmPipeline::BsLayout>, remove_cvref_t<tuple<typename GemmPipeline::BLayout> >>

◆ CLayout

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::CLayout = remove_cvref_t<typename GemmPipeline::CLayout>

◆ DsDataType

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::DsDataType = std::conditional_t<DDataTypeIsTuple, remove_cvref_t<typename EpiloguePipeline::DsDataType>, remove_cvref_t<tuple<typename EpiloguePipeline::DsDataType> >>

◆ DsLayout

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::DsLayout = std::conditional_t<DLayoutIsTuple, remove_cvref_t<typename EpiloguePipeline::DsLayout>, remove_cvref_t<tuple<typename EpiloguePipeline::DsLayout> >>

◆ EDataType

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::EDataType = remove_cvref_t<typename EpiloguePipeline::ODataType>

◆ EpiloguePipeline

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::EpiloguePipeline = remove_cvref_t<EpiloguePipeline_>

◆ GemmPipeline

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GemmPipeline = remove_cvref_t<GemmPipeline_>

◆ KernelArgs

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::KernelArgs = UniversalGemmKernelArgs<AsLayout::size(), BsLayout::size(), DsLayout::size()>

◆ TilePartitioner

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

using ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::TilePartitioner = remove_cvref_t<TilePartitioner_>

Member Function Documentation

◆ BlockSize()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_HOST auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BlockSize ( )

inlinestatic

◆ GetBlockId()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GetBlockId ( ) -> index_t

inlinestatic

◆ GetGridSize()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GetGridSize ( ) -> index_t

inlinestatic

◆ GetName()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_HOST const std::string ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GetName ( )

inlinestatic

◆ GetNumTiles()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

template<typename... Args>

static CK_TILE_HOST_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GetNumTiles ( Args &&... args ) -> index_t

inlinestatic

◆ GetSmemSize()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static constexpr CK_TILE_HOST_DEVICE index_t ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GetSmemSize ( )

inlinestaticconstexpr

◆ GetTileCoordinates()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GetTileCoordinates ( const KernelArgs & kargs ) -> tuple<index_t, index_t>

inlinestatic

◆ GridSize()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static constexpr CK_TILE_HOST auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::GridSize	(	index_t	M,
		index_t	N,
		index_t	KBatch
	)

inlinestaticconstexpr

◆ IsSupportedArgument()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_HOST bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::IsSupportedArgument ( const KernelArgs & kargs )

inlinestatic

◆ MakeABlockWindows()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::MakeABlockWindows	(	const std::array< const ADataType *, NumATensor > &	as_ptr,
		const KernelArgs &	kargs,
		const index_t	k_size,
		const index_t	i_m
	)

inlinestatic

◆ MakeBBlockWindows()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::MakeBBlockWindows	(	const std::array< const BDataType *, NumBTensor > &	bs_ptr,
		const KernelArgs &	kargs,
		const index_t	k_size,
		const index_t	i_n
	)

inlinestatic

◆ MakeCBlockWindows()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

template<memory_operation_enum DstInMemOp = memory_operation_enum::set>

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::MakeCBlockWindows	(	EDataType *	e_ptr,
		const KernelArgs &	kargs,
		const index_t	i_m,
		const index_t	i_n
	)

inlinestatic

◆ MakeDBlockWindows()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_DEVICE auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::MakeDBlockWindows	(	const std::array< const void *, NumDTensor > &	ds_ptr,
		const KernelArgs &	kargs,
		const index_t	i_m,
		const index_t	i_n
	)

inlinestatic

◆ MakeKernelArgs()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static constexpr CK_TILE_HOST KernelArgs ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::MakeKernelArgs ( const UniversalGemmHostArgs< NumATensor, NumBTensor, NumDTensor > & hostArgs )

inlinestaticconstexpr

◆ MaxOccupancyGridSize()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

static CK_TILE_HOST auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::MaxOccupancyGridSize ( const stream_config & s ) -> dim3

inlinestatic

Get the maximum occupancy grid size for the persistent kernel on the current device.

Returns: The maximum occupancy grid size.

Note: This function queries the maximum occupancy of the kernel using hipOccupancyMaxActiveBlocksPerMultiprocessor.

◆ operator()() [1/2]

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

template<bool U = !PersistentKernel, typename = std::enable_if_t<U>>

CK_TILE_DEVICE void ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::operator() ( KernelArgs kargs ) const

inline

◆ operator()() [2/2]

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

template<bool U = PersistentKernel, typename = std::enable_if_t<U>, typename = void>

CK_TILE_DEVICE void ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::operator() ( KernelArgs kargs ) const

inline

◆ RunGemm()

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

template<bool UseDefaultScheduler = true>

static CK_TILE_DEVICE void ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::RunGemm	(	const std::array< const ADataType *, NumATensor > &	as_ptr,
		const std::array< const BDataType *, NumBTensor > &	bs_ptr,
		const std::array< const void *, NumDTensor > &	ds_ptr,
		EDataType *	e_ptr,
		void *	smem_ptr,
		const KernelArgs &	kargs,
		const SplitKBatchOffset &	splitk_batch_offset,
		const index_t	block_idx_m,
		const index_t	block_idx_n
	)

inlinestatic

Runs single GEMM problem cooperatively by whole workgroup.

Parameters

as_ptr	input As pointer
bs_ptr	input Bs pointer
ds_ptr	input Ds pointer
e_ptr	output E pointer
smem_ptr	The start memory pointer of the shared memory block.
kargs	GEMM kernel arguments
splitk_batch_offset	splitk_batch_offset Utility structure used to calculate k batch.
block_idx_m	The GEMM's output M dimension tile index processed by this workgroup.
block_idx_n	The GEMM's output N dimension tile index processed by this workgroup.

Member Data Documentation

◆ ADataTypeIsTuple

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::ADataTypeIsTuple

staticconstexpr

Initial value:

=

is_detected<is_tuple, typename GemmPipeline::AsDataType>::value

value

const GenericPointer< typename T::ValueType > T2 value

Definition: pointer.h:1697

◆ ALayoutIsTuple

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::ALayoutIsTuple

staticconstexpr

Initial value:

=

is_detected<is_tuple, typename GemmPipeline::AsLayout>::value

◆ BDataTypeIsTuple

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BDataTypeIsTuple

staticconstexpr

Initial value:

=

is_detected<is_tuple, typename GemmPipeline::BsDataType>::value

◆ BLayoutIsTuple

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::BLayoutIsTuple

staticconstexpr

Initial value:

=

is_detected<is_tuple, typename GemmPipeline::BsLayout>::value

◆ DDataTypeIsTuple

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::DDataTypeIsTuple

staticconstexpr

Initial value:

=

is_detected<is_tuple, typename EpiloguePipeline::DsDataType>::value

◆ DLayoutIsTuple

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::DLayoutIsTuple

staticconstexpr

Initial value:

=

is_detected<is_tuple, typename EpiloguePipeline::DsLayout>::value

◆ has_tile_partitioner_output_offset

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::has_tile_partitioner_output_offset

staticconstexpr

Initial value:

=

has_tile_partitioner_output_offset_impl::value

ck_tile::UniversalGemmKernel::has_tile_partitioner_output_offset_impl::value

static constexpr bool value

Definition: universal_gemm_kernel.hpp:226

◆ I0

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::I0 = number<0>()

staticconstexpr

◆ I1

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::I1 = number<1>()

staticconstexpr

◆ I2

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::I2 = number<2>()

staticconstexpr

◆ I3

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr auto ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::I3 = number<3>{}

staticconstexpr

◆ kBlockSize

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr index_t ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::kBlockSize = GemmPipeline::BlockSize

staticconstexpr

◆ NumATensor

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr index_t ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::NumATensor = AsDataType::size()

staticconstexpr

◆ NumBTensor

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr index_t ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::NumBTensor = BsDataType::size()

staticconstexpr

◆ NumDTensor

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr index_t ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::NumDTensor = DsDataType::size()

staticconstexpr

◆ PersistentKernel

template<typename TilePartitioner_ , typename GemmPipeline_ , typename EpiloguePipeline_ >

constexpr bool ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >::PersistentKernel = has_persistent_kernel::value

staticconstexpr

The documentation for this struct was generated from the following file:

/home/docs/checkouts/readthedocs.org/user_builds/advanced-micro-devices-composable-kernel/checkouts/develop/include/ck_tile/ops/gemm/kernel/universal_gemm_kernel.hpp

UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ > Struct Template Reference

UniversalGemmKernel&lt; TilePartitioner_, GemmPipeline_, EpiloguePipeline_ &gt; Struct Template Reference#

Classes

Public Types

Public Member Functions

Static Public Member Functions

Static Public Attributes

Detailed Description

template<typename TilePartitioner_, typename GemmPipeline_, typename EpiloguePipeline_> struct ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >

Overview

Member Typedef Documentation

◆ ADataType

◆ AElementWise

◆ AsDataType

◆ AsLayout

◆ BDataType

◆ BElementWise

◆ BsDataType

◆ BsLayout

◆ CLayout

◆ DsDataType

◆ DsLayout

◆ EDataType

◆ EpiloguePipeline

◆ GemmPipeline

◆ KernelArgs

◆ TilePartitioner

Member Function Documentation

◆ BlockSize()

◆ GetBlockId()

◆ GetGridSize()

◆ GetName()

◆ GetNumTiles()

◆ GetSmemSize()

◆ GetTileCoordinates()

◆ GridSize()

◆ IsSupportedArgument()

◆ MakeABlockWindows()

◆ MakeBBlockWindows()

◆ MakeCBlockWindows()

◆ MakeDBlockWindows()

◆ MakeKernelArgs()

◆ MaxOccupancyGridSize()

◆ operator()() [1/2]

◆ operator()() [2/2]

◆ RunGemm()

Member Data Documentation

◆ ADataTypeIsTuple

◆ ALayoutIsTuple

◆ BDataTypeIsTuple

◆ BLayoutIsTuple

◆ DDataTypeIsTuple

◆ DLayoutIsTuple

◆ has_tile_partitioner_output_offset

◆ I0

◆ I1

◆ I2

◆ I3

◆ kBlockSize

◆ NumATensor

◆ NumBTensor

◆ NumDTensor

◆ PersistentKernel

UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ > Struct Template Reference#

template<typename TilePartitioner_, typename GemmPipeline_, typename EpiloguePipeline_>
struct ck_tile::UniversalGemmKernel< TilePartitioner_, GemmPipeline_, EpiloguePipeline_ >