Mojo struct

TileLoaderTMA

@register_passable(trivial) struct TileLoaderTMA[tma_origin: ImmutOrigin, dtype: DType, gmem_layout: Layout, desc_layout: Layout, /, *, cta_group: Int]

TMA-based tile loader for SM100.

Wraps a TMA descriptor and multicast mask for efficient tile loading. The load method issues async_multicast_load with proper CTA group handling.

Parameters

tma_origin (ImmutOrigin): Origin of the TMA descriptor pointer.
dtype (DType): Element data type.
gmem_layout (Layout): Global memory tensor layout.
desc_layout (Layout): TMA descriptor layout (tile dimensions).
cta_group (Int): CTA group size (1 or 2 for SM100 2-SM MMA).

Fields

tma_op (TileLoaderTMA[tma_origin, dtype, gmem_layout, desc_layout, cta_group=cta_group].TmaOpPtr):
multicast_mask (UInt16):

Implemented traits

AnyType, Copyable, ImplicitlyCopyable, ImplicitlyDestructible, Movable

`comptime` members

`copyinitis_trivial`

comptime __copyinit__is_trivial = True

`delis_trivial`

comptime __del__is_trivial = True

`moveinitis_trivial`

comptime __moveinit__is_trivial = True

`TmaOp`

comptime TmaOp = TMATensorTile[dtype, gmem_layout, desc_layout]

`TmaOpPtr`

comptime TmaOpPtr = Pointer[TileLoaderTMA[tma_origin, dtype, gmem_layout, desc_layout, cta_group=cta_group].TmaOp, tma_origin]

Methods

`init`

__init__(tma_op: Pointer[TileLoaderTMA[tma_origin, dtype, gmem_layout, desc_layout, cta_group=cta_group].TmaOp, tma_origin], multicast_mask: UInt16) -> Self

Initialize the TMA tile loader.

Args:

tma_op (Pointer): Pointer to TMA descriptor (grid constant).
multicast_mask (UInt16): Multicast mask for cluster distribution.

`load`

load(self, dest: LayoutTensor[dtype, layout, origin, address_space=AddressSpace.SHARED, element_layout=element_layout, layout_int_type=layout_int_type, linear_idx_type=linear_idx_type, masked=masked, alignment=alignment], ref [3] barrier: SharedMemBarrier, k_coord: UInt, row_coord: UInt)

Load a tile using TMA hardware acceleration.

Issues an async multicast load from global memory to shared memory. Coordinates are in element units (not tile units).

Args:

dest (LayoutTensor): Destination SMEM tile (already sliced for peer CTA if needed).
barrier (SharedMemBarrier): Memory barrier for TMA completion signaling.
k_coord (UInt): K dimension coordinate in global memory (elements).
row_coord (UInt): Row coordinate (M for A, N for B) in global memory (elements).

Parameters​

Fields​

Implemented traits​

comptime members​

__copyinit__is_trivial​

__del__is_trivial​

__moveinit__is_trivial​

TmaOp​

TmaOpPtr​

Methods​

__init__​

load​