For the complete documentation index, see llms.txt. Markdown versions of all pages are available by appending .md to any URL (e.g. /max/get-started.md).

Python module

max.pipelines.architectures.mistral

Mistral transformer architecture for text generation.

`MistralConfig`

class max.pipelines.architectures.mistral.MistralConfig(*, hidden_size, num_attention_heads, num_key_value_heads, num_hidden_layers, head_dim, vocab_size, rope_theta, max_seq_len, rms_norm_eps, feed_forward_length, dtype, kv_params, attention_multiplier, devices, return_logits=ReturnLogits.LAST_TOKEN)

source

Bases: ArchConfigWithPermissiveMaxSeqLen, ArchConfigWithStoredKVParams, ArchConfigWithKVCache

Configuration for Mistral models.

Parameters:

hidden_size (int)
num_attention_heads (int)
num_key_value_heads (int)
num_hidden_layers (int)
head_dim (int)
vocab_size (int)
rope_theta (float)
max_seq_len (int)
rms_norm_eps (float)
feed_forward_length (int)
dtype (DType)
kv_params (KVCacheParams)
attention_multiplier (float)
devices (list[DeviceRef])
return_logits (ReturnLogits)

`attention_multiplier`

attention_multiplier: float

source

`devices`

devices: list[DeviceRef]

source

`dtype`

dtype: DType

source

`feed_forward_length`

feed_forward_length: int

source

`get_max_seq_len()`

get_max_seq_len()

source

Returns the resolved maximum sequence length stored on the config.

Return type:: int

`head_dim`

head_dim: int

source

`hidden_size`

hidden_size: int

source

`initialize()`

classmethod initialize(pipeline_config, model_config=None)

source

Initializes a MistralConfig instance from pipeline configuration.

This method creates a config instance with all fields that can be determined from the pipeline configuration.

Parameters:

pipeline_config (PipelineConfig) – The MAX Engine pipeline configuration.
model_config (MAXModelConfig | None)

Returns:

An initialized MistralConfig instance.

Return type:

Self

`initialize_from_config()`

classmethod initialize_from_config(pipeline_config, huggingface_config)

source

Parameters:

pipeline_config (PipelineConfig)
huggingface_config (AutoConfig)

Return type:

Self

`kv_params`

kv_params: KVCacheParams

source

`max_seq_len`

max_seq_len: int

source

`num_attention_heads`

num_attention_heads: int

source

`num_hidden_layers`

num_hidden_layers: int

source

`num_key_value_heads`

num_key_value_heads: int

source

`return_logits`

return_logits: ReturnLogits = 'last_token'

source

Whether to return the last token, all logits, or a variable number of logits.

`rms_norm_eps`

rms_norm_eps: float

source

`rope_theta`

rope_theta: float

source

`vocab_size`

vocab_size: int

source

`MistralInputs`

class max.pipelines.architectures.mistral.MistralInputs(tokens, input_row_offsets, signal_buffers, return_n_logits, *, kv_cache_inputs=None, lora=None, hidden_states=None)

source

Bases: ModelInputs

A class representing inputs for the Mistral model.

This class encapsulates the input tensors required for the Mistral model execution:

tokens: A tensor containing the input token IDs
input_row_offsets: A tensor containing the offsets for each row in the ragged input sequence
return_n_logits: A tensor containing the number of expected token logits.

Parameters:

tokens (Buffer)
input_row_offsets (Buffer)
signal_buffers (list[Buffer])
return_n_logits (Buffer)
kv_cache_inputs (KVCacheInputsInterface[Buffer, Buffer] | None)
lora (LoRAInputs | None)
hidden_states (Buffer | list[Buffer] | None)

`input_row_offsets`

input_row_offsets: Buffer

source

`return_n_logits`

return_n_logits: Buffer

source

`signal_buffers`

signal_buffers: list[Buffer]

source

Device buffers used for synchronization in communication collectives.

`tokens`

tokens: Buffer

source

`MistralModel`

class max.pipelines.architectures.mistral.MistralModel(pipeline_config, session, devices, kv_cache_config, weights, adapter=None, return_logits=ReturnLogits.LAST_TOKEN, max_batch_size=1)

source

Bases: GraphPipelineModelWithKVCache[TextContext]

Parameters:

pipeline_config (PipelineConfig)
session (InferenceSession)
devices (list[Device])
kv_cache_config (KVCacheConfig)
weights (Weights)
adapter (WeightsAdapter | None)
return_logits (ReturnLogits)
max_batch_size (int)

`batch_processor_cls`

batch_processor_cls

source

alias of MistralBatchProcessor

`calculate_max_seq_len()`

classmethod calculate_max_seq_len(pipeline_config, huggingface_config)

source

Bounds max_length by max_position_embeddings (config is permissive).

Parameters:

pipeline_config (PipelineConfig)
huggingface_config (AutoConfig)

Return type:

int

`execute()`

execute(model_inputs)

source

Runs the graph.

Parameters:: model_inputs (ModelInputs)
Return type:: ModelOutputs

`load_model()`

load_model(session)

source

Build, compile, and load the model graph into session.

Parameters:: session (InferenceSession)
Return type:: Model

`model`

model: Model

source

Compiled and initialized model ready for inference.

`model_config_cls`

model_config_cls

source

alias of MistralConfig

MistralConfig​

attention_multiplier​

devices​

dtype​

feed_forward_length​

get_max_seq_len()​

head_dim​

hidden_size​

initialize()​

initialize_from_config()​

kv_params​

max_seq_len​

num_attention_heads​

num_hidden_layers​

num_key_value_heads​

return_logits​

rms_norm_eps​

rope_theta​

vocab_size​

MistralInputs​

input_row_offsets​

return_n_logits​

signal_buffers​

tokens​

MistralModel​

batch_processor_cls​

calculate_max_seq_len()​

execute()​

load_model()​

model​

model_config_cls​

`MistralConfig`

`attention_multiplier`

`devices`

`dtype`

`feed_forward_length`

`get_max_seq_len()`

`head_dim`

`hidden_size`

`initialize()`

`initialize_from_config()`

`kv_params`

`max_seq_len`

`num_attention_heads`

`num_hidden_layers`

`num_key_value_heads`

`return_logits`

`rms_norm_eps`

`rope_theta`

`vocab_size`

`MistralInputs`

`input_row_offsets`

`return_n_logits`

`signal_buffers`

`tokens`

`MistralModel`

`batch_processor_cls`

`calculate_max_seq_len()`

`execute()`

`load_model()`

`model`

`model_config_cls`