For the complete documentation index, see llms.txt. Markdown versions of all pages are available by appending .md to any URL (e.g. /max/get-started.md).

Mojo function

grouped_quantize_dynamic_scaled_fp4_async

def grouped_quantize_dynamic_scaled_fp4_async[input_dtype: DType, output_dtype: DType, scales_dtype: DType, //](output_tensor: TileTensor[output_dtype, linear_idx_type=output_tensor.linear_idx_type, element_size=output_tensor.element_size], scales_tensor: TileTensor[scales_dtype, linear_idx_type=scales_tensor.linear_idx_type, element_size=scales_tensor.element_size], input_tensor: TileTensor[input_dtype, linear_idx_type=input_tensor.linear_idx_type, element_size=input_tensor.element_size], row_offsets: TileTensor[DType.uint32, linear_idx_type=row_offsets.linear_idx_type, element_size=row_offsets.element_size], scales_offsets: TileTensor[DType.uint32, linear_idx_type=scales_offsets.linear_idx_type, element_size=scales_offsets.element_size], expert_ids: TileTensor[DType.int32, linear_idx_type=expert_ids.linear_idx_type, element_size=expert_ids.element_size], sf_tensor: TileTensor[DType.float32, linear_idx_type=sf_tensor.linear_idx_type, element_size=sf_tensor.element_size], ctx: DeviceContext)