Mojo struct

QRegisterBuffer

struct QRegisterBuffer[dtype: DType, mma_shape: IndexList[3], k_group_size: Int, WM: Int, WN: Int, BN: Int, BK: Int, depth: Int, thread_layout: Layout]

Fields

reg_tile (QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].RegisterTileType):

Implemented traits

AnyType, ImplicitlyDestructible, RegisterBuffer, RegisterMMABuffer

`comptime` members

`mma_dtype`

comptime mma_dtype = dtype

`MMA_K`

comptime MMA_K = mma_shape[2]

`MMA_M`

comptime MMA_M = mma_shape[0]

`mma_tile_layout`

comptime mma_tile_layout = LayoutTensor._compute_tile_layout[tile_size=(LayoutTensor._compute_tile_layout[tile_size=(QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].reg_tile_layout.shape[0].value() // QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_tiles), axis=0]()[0].shape[0].value() // QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_k_tiles), axis=0]()[0]

`MMATileType`

comptime MMATileType = LayoutTensor[dtype, LayoutTensor._compute_tile_layout[tile_size=(LayoutTensor._compute_tile_layout[tile_size=(QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].reg_tile_layout.shape[0].value() // QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_tiles), axis=0]()[0].shape[0].value() // QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_k_tiles), axis=0]()[0], MutAnyOrigin, address_space=AddressSpace.LOCAL]

`num_k_tiles`

comptime num_k_tiles = ceildiv(BK, (QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].MMA_K * k_group_size))

`num_mmas`

comptime num_mmas = ceildiv(WM, QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].MMA_M)

`num_tiles`

comptime num_tiles = (depth // BK)

`reg_dtype`

comptime reg_dtype = dtype

`reg_tile_layout`

comptime reg_tile_layout = Layout.row_major(((QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_mmas * QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_k_tiles) * QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_tiles), QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].simd_width)

`RegisterTileType`

comptime RegisterTileType = LayoutTensor[dtype, QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].reg_tile_layout, MutAnyOrigin, address_space=AddressSpace.LOCAL]

`simd_width`

comptime simd_width = simd_width_of[dtype]()

`TiledIteratorType`

comptime TiledIteratorType = LayoutTensorIter[dtype, LayoutTensor._compute_tile_layout[(QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_mmas * QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_k_tiles), QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].simd_width]()[0], MutAnyOrigin, address_space=AddressSpace.LOCAL, axis=0, layout_int_type=_get_layout_type(QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].reg_tile_layout, AddressSpace.LOCAL), linear_idx_type=_get_index_type(QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].reg_tile_layout, AddressSpace.LOCAL), masked=_tile_is_masked[QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].reg_tile_layout, (QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_mmas * QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].num_k_tiles), QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].simd_width]()]

Methods

`init`

__init__(out self, tensor: LayoutTensor[dtype, tensor.layout, tensor.origin, address_space=tensor.address_space, element_layout=tensor.element_layout, layout_int_type=tensor.layout_int_type, linear_idx_type=tensor.linear_idx_type, masked=tensor.masked, alignment=tensor.alignment])

`get_dtype`

static get_dtype() -> DType

Returns:

DType

`get_iter`

get_iter(self) -> QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].TiledIteratorType

Returns:

QRegisterBuffer

`get_mma_tile`

get_mma_tile[tile_idx: Int, k_idx: Int](self) -> QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].MMATileType

Returns:

QRegisterBuffer

`get_reg_tile`

get_reg_tile[stage: Int = 0](self) -> QRegisterBuffer[dtype, mma_shape, k_group_size, WM, WN, BN, BK, depth, thread_layout].RegisterTileType

Returns:

QRegisterBuffer

`scale`

scale[accum_type: DType](self, scale_factor: Scalar[accum_type])

Scale all Q register elements in-place.

Casts bf16 -> f32, multiplies by scale_factor, casts back to bf16. Used for pre-scaling Q by (1/sqrt(d) * log2e) so that QK matmul produces already-scaled scores, eliminating scale from the hot loop.

`zero`

zero(self)

Fields​

Implemented traits​

comptime members​

mma_dtype​

MMA_K​

MMA_M​

mma_tile_layout​

MMATileType​

num_k_tiles​

num_mmas​

num_tiles​

reg_dtype​

reg_tile_layout​

RegisterTileType​

simd_width​

TiledIteratorType​

Methods​

__init__​

get_dtype​

get_iter​

get_mma_tile​

get_reg_tile​

scale​

zero​

Fields

Implemented traits

`comptime` members

`mma_dtype`

`MMA_K`

`MMA_M`

`mma_tile_layout`

`MMATileType`

`num_k_tiles`

`num_mmas`

`num_tiles`

`reg_dtype`

`reg_tile_layout`

`RegisterTileType`

`simd_width`

`TiledIteratorType`

Methods

`init`

`get_dtype`

`get_iter`

`get_mma_tile`

`get_reg_tile`

`scale`

`zero`