跳到主要内容

MiniMax M3

概述

MiniMax M3 是 MiniMax M 系列的新一代大语言模型。该模型引入 MiniMax Sparse Attention(MSA),这是一种次二次复杂度的注意力机制,旨在面向百万级 token 上下文场景提升推理效率,同时保持与 M2 系列相近的输出质量。具体可用性请以 B.AI 模型目录和平台展示为准。

核心特性

  • MiniMax Sparse Attention(MSA):采用基于 GQA 的两阶段稀疏注意力架构。轻量索引分支负责选择相关 KV block,稀疏分支只对被选中的 block 计算注意力,从而降低注意力计算成本。
  • 百万级上下文:面向 1M token 上下文场景设计,预览资料显示其在长上下文下的解码和 prefill 效率相比 M2 系列有明显提升。
  • 多模态支持:图像输入能力取决于平台上线节奏和模型配置,可在支持时扩展 M 系列的文本之外工作流。
  • Agent 与办公场景优化:面向文档理解、表格处理、演示文稿生成和企业级 Agent 工作流优化。

适用场景

  • 超长上下文处理:多文档分析、长对话历史理解、大型代码库理解。
  • AI Agent 部署:结合工具调用、推理和长上下文状态的自主任务执行。
  • 办公自动化:文档、表格和演示文稿的智能处理与生成。

能力与限制

能力维度说明
推理能力面向前沿级推理和 Agent 工作流设计;最终基准表现可能随发布版本变化
创作能力未标明
多模态能力文本工作流;图像输入能力取决于平台上线节奏和模型配置
响应速度面向比 M2 系列更高效的长上下文 prefill 和解码设计
上下文窗口1,000,000 tokens
最大输出未标明
工具调用面向函数调用和 Agent 工作流支持设计
多语言能力未标明

已知限制

  • 最终可用性、模型限制和基准成绩可能随上线过程变化。
  • 预览资料中描述的部分能力可能取决于平台支持和模型配置。

积分消耗

模型名称输入 (Credits/Token)Cache Write (Credits/Token)Cache Read (Credits/Token)输出 (Credits/Token)网页搜索(Credits/次)计费说明
MiniMax M30.600.750.122.40--