Mojo struct

PRegisterBuffer

struct PRegisterBuffer[accum_type_: DType, dtype: DType, BM: Int, BN: Int, BK: Int, WM: Int, WN: Int, num_m_mmas: Int, num_n_mmas: Int, output_frag_size: Int, shared_memory_backed: Bool, mma_shape: IndexList[3], k_group_size: Int, tr_load_enabled: Bool = False, num_stages: Int = 1]

Fields

reg_tile (PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].RegisterTileType_):
shared_memory_tile (PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].SharedMemoryTileType):

Implemented traits

AnyType, ImplicitlyDestructible, RegisterBuffer, RegisterMMABuffer

`comptime` members

`delis_trivial`

comptime __del__is_trivial = True

`mma_dtype`

comptime mma_dtype = dtype

`mma_tile_layout`

comptime mma_tile_layout = Layout.row_major(num_m_mmas, simd_width_of[dtype]())

`MMATileType`

comptime MMATileType = LayoutTensor[PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].mma_dtype, PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].mma_tile_layout, MutAnyOrigin, address_space=AddressSpace.LOCAL]

`reg_dtype`

comptime reg_dtype = accum_type_

`reg_tile_layout`

comptime reg_tile_layout = Layout.row_major((num_n_mmas * num_m_mmas), output_frag_size)

`reg_tile_layout_`

comptime reg_tile_layout_ = Layout.row_major(((num_stages * num_n_mmas) * num_m_mmas), output_frag_size)

`RegisterTileType`

comptime RegisterTileType = LayoutTensor[accum_type_, PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].reg_tile_layout, MutAnyOrigin, address_space=AddressSpace.LOCAL]

`RegisterTileType_`

comptime RegisterTileType_ = LayoutTensor[accum_type_, PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].reg_tile_layout_, MutAnyOrigin, address_space=AddressSpace.LOCAL]

`shared_memory_layout`

comptime shared_memory_layout = blocked_product(Layout.row_major(BM, BK), Layout.row_major(1, (BN // BK)), False)

`SharedMemoryTileType`

comptime SharedMemoryTileType = LayoutTensor[dtype, PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].shared_memory_layout, MutAnyOrigin, address_space=AddressSpace.SHARED]

Methods

`init`

__init__(out self, shared_ptr: UnsafePointer[Scalar[dtype], MutAnyOrigin, address_space=AddressSpace.SHARED])

`get_mma_tile_reg`

get_mma_tile_reg[tile_idx: Int, k_idx: Int, stage: Int = 0](self) -> PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].MMATileType

Returns:

PRegisterBuffer

`get_mma_tile_shared`

get_mma_tile_shared[tile_idx: Int, k_idx: Int](self) -> PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].MMATileType

Returns:

PRegisterBuffer

`get_mma_tile`

get_mma_tile[tile_idx: Int, k_idx: Int](self) -> PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].MMATileType

Returns:

PRegisterBuffer

get_mma_tile[tile_idx: Int, k_idx: Int, stage: Int](self) -> PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].MMATileType

Returns:

PRegisterBuffer

`get_dtype`

static get_dtype() -> DType

Returns:

DType

`vectorize`

vectorize[stage: Int = 0](self) -> LayoutTensor[accum_type_, coalesce(LayoutTensor._compute_tile_layout[1, output_frag_size]()[1], True), MutAnyOrigin, address_space=AddressSpace.LOCAL, element_layout=LayoutTensor._divide_tiles[1, output_frag_size]()[0], layout_int_type=_get_layout_type(PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].reg_tile_layout, AddressSpace.LOCAL), linear_idx_type=_get_index_type(PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].reg_tile_layout, AddressSpace.LOCAL)]

Returns:

LayoutTensor

`zero`

zero[stage: Int](self)

zero(self)

`get_reg_tile`

get_reg_tile[stage: Int = 0](self) -> PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].RegisterTileType

Returns:

PRegisterBuffer

`get_shared_memory_tile`

get_shared_memory_tile(self, tile_idx: Int) -> LayoutTensor[dtype, LayoutTensor._compute_tile_layout[BM, BK]()[0], MutAnyOrigin, address_space=AddressSpace.SHARED, layout_int_type=_get_layout_type(PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].shared_memory_layout, AddressSpace.SHARED), linear_idx_type=_get_index_type(PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].shared_memory_layout, AddressSpace.SHARED), masked=_tile_is_masked[PRegisterBuffer[accum_type_, dtype, BM, BN, BK, WM, WN, num_m_mmas, num_n_mmas, output_frag_size, shared_memory_backed, mma_shape, k_group_size, tr_load_enabled, num_stages].shared_memory_layout, BM, BK]()]

Returns:

LayoutTensor

`copy_to_shared`

copy_to_shared(self)

Fields​

Implemented traits​

comptime members​

__del__is_trivial​

mma_dtype​

mma_tile_layout​

MMATileType​

reg_dtype​

reg_tile_layout​

reg_tile_layout_​

RegisterTileType​

RegisterTileType_​

shared_memory_layout​

SharedMemoryTileType​

Methods​

__init__​

get_mma_tile_reg​

get_mma_tile_shared​

get_mma_tile​

get_dtype​

vectorize​

zero​

get_reg_tile​

get_shared_memory_tile​

copy_to_shared​

Fields

Implemented traits

`comptime` members

`delis_trivial`

`mma_dtype`

`mma_tile_layout`

`MMATileType`

`reg_dtype`

`reg_tile_layout`

`reg_tile_layout_`

`RegisterTileType`

`RegisterTileType_`

`shared_memory_layout`

`SharedMemoryTileType`

Methods

`init`

`get_mma_tile_reg`

`get_mma_tile_shared`

`get_mma_tile`

`get_dtype`

`vectorize`

`zero`

`get_reg_tile`

`get_shared_memory_tile`

`copy_to_shared`