Mojo function

grouped_quantize_dynamic_scaled_fp4_async

grouped_quantize_dynamic_scaled_fp4_async[input_dtype: DType, output_dtype: DType, scales_dtype: DType, //](output_tensor: TileTensor[output_dtype, output_tensor.LayoutType, output_tensor.origin, linear_idx_type=output_tensor.linear_idx_type, element_size=output_tensor.element_size], scales_tensor: TileTensor[scales_dtype, scales_tensor.LayoutType, scales_tensor.origin, linear_idx_type=scales_tensor.linear_idx_type, element_size=scales_tensor.element_size], input_tensor: TileTensor[input_dtype, input_tensor.LayoutType, input_tensor.origin, linear_idx_type=input_tensor.linear_idx_type, element_size=input_tensor.element_size], row_offsets: TileTensor[DType.uint32, row_offsets.LayoutType, row_offsets.origin, linear_idx_type=row_offsets.linear_idx_type, element_size=row_offsets.element_size], scales_offsets: TileTensor[DType.uint32, scales_offsets.LayoutType, scales_offsets.origin, linear_idx_type=scales_offsets.linear_idx_type, element_size=scales_offsets.element_size], expert_ids: TileTensor[DType.int32, expert_ids.LayoutType, expert_ids.origin, linear_idx_type=expert_ids.linear_idx_type, element_size=expert_ids.element_size], sf_tensor: TileTensor[DType.float32, sf_tensor.LayoutType, sf_tensor.origin, linear_idx_type=sf_tensor.linear_idx_type, element_size=sf_tensor.element_size], ctx: DeviceContext)