Mojo function

broadcast_multimem_kernel

broadcast_multimem_kernel[dtype: DType, rank: Int, BLOCK_SIZE: Int, ngpus: Int, simd_width: Int = simd_width_of[dtype, get_gpu_target()](), pdl_level: PDLLevel = PDLLevel()](output_buffer: NDBuffer[dtype, rank, MutAnyOrigin], input_buffer: NDBuffer[dtype, rank, ImmutAnyOrigin], rank_sigs: InlineArray[UnsafePointer[Signal, MutAnyOrigin], 8], my_rank: Int, root: Int)

Broadcast kernel using multimem.st for multicast writes.

Root GPU writes to multicast address, data appears on all GPUs. Only root performs the stores; other GPUs just participate in barriers.