Mojo struct

TMemAccumulator

@register_passable(trivial) struct TMemAccumulator[dtype_: DType, MMA_M: Int, MMA_N: Int, num_m_mmas: Int, num_n_mmas: Int, num_softmax_threads: Int]

Fields

tmem_addr (UInt32):

Implemented traits

AccumulatorTile, AnyType, Copyable, ImplicitlyCopyable, Movable, UnknownDestructibility

Aliases

`copyinitis_trivial`

alias __copyinit__is_trivial = True

`delis_trivial`

alias __del__is_trivial = True

`moveinitis_trivial`

alias __moveinit__is_trivial = True

`dtype`

alias dtype = dtype_

`element_layout`

alias element_layout = Layout.row_major(1, 2)

`frag_size`

alias frag_size = ((MMA_M * MMA_N) // num_softmax_threads)

`layout_t`

alias layout_t = RegisterAccumulatorLayout[MMA_M, MMA_N, num_m_mmas, num_n_mmas, num_softmax_threads]

`rows_of_frags_layout`

alias rows_of_frags_layout = Layout.row_major((num_m_mmas * num_n_mmas), ((MMA_M * MMA_N) // num_softmax_threads))

`vec_output_layout`

alias vec_output_layout = Layout(IntTuple(IntTuple(2, num_m_mmas), IntTuple((((MMA_M * MMA_N) // num_softmax_threads) // 4), num_n_mmas), Tuple[]()), IntTuple(IntTuple(2, ((MMA_M * MMA_N) // num_softmax_threads)), IntTuple(4, (num_m_mmas * ((MMA_M * MMA_N) // num_softmax_threads))), Tuple[]()))

Methods

`init`

__init__(tmem_addr: UInt32) -> Self

`getitem`

__getitem__(self, i: UInt32) -> Self

`check_constraints`

static check_constraints()

`offset`

offset[m_mma: Int, n_mma: Int](self) -> UInt32

Returns:

UInt32

`rows_of_frags`

static rows_of_frags(src: LayoutTensor[dtype_, Layout(IntTuple(IntTuple(2, num_m_mmas), IntTuple((((MMA_M * MMA_N) // num_softmax_threads) // 4), num_n_mmas), Tuple[]()), IntTuple(IntTuple(2, ((MMA_M * MMA_N) // num_softmax_threads)), IntTuple(4, (num_m_mmas * ((MMA_M * MMA_N) // num_softmax_threads))), Tuple[]())), MutableAnyOrigin, address_space=AddressSpace(5), element_layout=Layout.row_major(1, 2)]) -> LayoutTensor[dtype_, Layout.row_major((num_m_mmas * num_n_mmas), ((MMA_M * MMA_N) // num_softmax_threads)), MutableAnyOrigin, address_space=AddressSpace(5)]

Returns:

LayoutTensor

`allocate_register_tile`

static allocate_register_tile() -> LayoutTensor[dtype_, Layout(IntTuple(IntTuple(2, num_m_mmas), IntTuple((((MMA_M * MMA_N) // num_softmax_threads) // 4), num_n_mmas), Tuple[]()), IntTuple(IntTuple(2, ((MMA_M * MMA_N) // num_softmax_threads)), IntTuple(4, (num_m_mmas * ((MMA_M * MMA_N) // num_softmax_threads))), Tuple[]())), MutableAnyOrigin, address_space=AddressSpace(5), element_layout=Layout.row_major(1, 2)]

Returns:

LayoutTensor

`copy_from`

copy_from(self, src: LayoutTensor[dtype_, Layout(IntTuple(IntTuple(2, num_m_mmas), IntTuple((((MMA_M * MMA_N) // num_softmax_threads) // 4), num_n_mmas), Tuple[]()), IntTuple(IntTuple(2, ((MMA_M * MMA_N) // num_softmax_threads)), IntTuple(4, (num_m_mmas * ((MMA_M * MMA_N) // num_softmax_threads))), Tuple[]())), MutableAnyOrigin, address_space=AddressSpace(5), element_layout=Layout.row_major(1, 2)])

`copy_to`

copy_to(self, dst: LayoutTensor[dtype_, Layout(IntTuple(IntTuple(2, num_m_mmas), IntTuple((((MMA_M * MMA_N) // num_softmax_threads) // 4), num_n_mmas), Tuple[]()), IntTuple(IntTuple(2, ((MMA_M * MMA_N) // num_softmax_threads)), IntTuple(4, (num_m_mmas * ((MMA_M * MMA_N) // num_softmax_threads))), Tuple[]())), MutableAnyOrigin, address_space=AddressSpace(5), element_layout=Layout.row_major(1, 2)])

Fields​

Implemented traits​

Aliases​

__copyinit__is_trivial​

__del__is_trivial​

__moveinit__is_trivial​

dtype​

element_layout​

frag_size​

layout_t​

rows_of_frags_layout​

vec_output_layout​

Methods​

__init__​

__getitem__​

check_constraints​

offset​

rows_of_frags​

allocate_register_tile​

copy_from​

copy_to​

Fields

Implemented traits

Aliases

`copyinitis_trivial`

`delis_trivial`

`moveinitis_trivial`

`dtype`

`element_layout`

`frag_size`

`layout_t`

`rows_of_frags_layout`

`vec_output_layout`

Methods

`init`

`getitem`

`check_constraints`

`offset`

`rows_of_frags`

`allocate_register_tile`

`copy_from`

`copy_to`