MiniMax M3 发布：1M 上下文 + 原生多模态 + 前沿 Coding

6/1/2026开源 AI 大模型 MiniMax

MiniMax M3 Benchmark

MiniMax 今日正式发布 M3 模型。这是一个同时具备前沿 Coding 能力、百万级上下文和原生多模态的模型——国内第一个，也是目前全球唯一达成这一配置的开源模型。

M3 采用 MiniMax 自研的 MSA（MiniMax Sparse Attention）稀疏注意力架构，最高支持 1M 上下文窗口。在 100 万 token 的上下文长度下，每 token 计算量仅为上代模型的 1/20，prefill 阶段实现 9 倍加速，decode 阶段实现 15 倍加速。

MSA：从注意力机制底层解决 Context Scaling

全注意力机制的计算复杂度随序列长度呈平方级增长，这是大模型扩展上下文窗口的核心瓶颈。MSA 通过 block-level 选取和真实 KV 空间注意力，在避免复杂度爆炸的同时实现更高的有效上下文覆盖。

与 DSA、MoBA 等现有稀疏注意力方案相比，MSA 的核心差异在于算子层优化——采用以 KV 块为外层聚合命中 query 的 KV outer gather Q 机制，每块只读一次、访存连续。在 MiniMax 的 head 配比下，计算访存比显著优于通行方法，比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上。

MSA 架构

在多个对照实验中，MSA 的绝大部分能力与全注意力打平，做到了效率与质量的兼顾。

Benchmark：与全球前沿模型正面对比

在涵盖编程、Agent 工具调用、浏览器操作、多模态理解等多个维度的 10 项国际权威评测中，M3 的表现：

SWE-Bench Pro：59.0%，超过 GPT-5.5（58.6）和 Gemini 3.1 Pro（54.2）
SVG-Bench：63.7%，超过 Opus 4.7（62.3），该项最高分
Terminal Bench 2.1：66.0%
BrowseComp：83.5%
MCP Atlas：74.2%（Agent 工具调用能力）
OSWorld-verified：70.0%（真实操作系统任务）
KernelBench Hard：28.8%
BankerToolBench：76.1%
VIBE V2：50.1%
GDPval rubrics：74.7%

单项来看，Opus 4.7 在多数编程/Agent 评测中仍保持领先，但 M3 作为开源模型在多个维度已可与之正面竞争。在 SVG-Bench 上甚至取得最高分。

原生多模态：Step 0 混合训练

M3 从 Step 0 开始进行多模态混合训练，文本和图像等模态在序列中交替自然排列（Interleaved 数据）。MiniMax 的实验表明，Interleaved 数据对模型整体性能的提升比一般认知的关键得多。

在重构整套数据管线后，MiniMax 已将训练数据 token 规模提升至 100 万亿量级。模型原生支持图片和视频输入，并能操作电脑桌面。

实际任务验证

Benchmark 数据之外，MiniMax 展示了三个高难度的实际任务：

论文独立复现：M3 独立复现了 ICLR 2025 Outstanding Paper Award 获奖论文 Learning Dynamics of LLM Finetuning，自主运行近 12 小时，产出 18 次 commit 和 23 张实验图表，成功吻合 SFT 阶段预测概率变化趋势，观测到 DPO 的 squeezing 效应，并验证了原论文的 Extend 缓解方法。

论文复现

CUDA 算子优化：在 NVIDIA Hopper 架构 GPU 上自主优化 FP8 GEMM kernel，147 次 benchmark 提交、1959 次工具调用，将硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4 倍加速。最优解出现在第 145 次提交——经历了多个性能平台期后仍在持续探索不同优化方向。

CUDA 优化

自主训练 Base 模型：PostTrainBench 测试中，M3 自主完成「数据合成→训练→评测→迭代」全流程，让四个不具备任何下游能力的 Base 模型在数学推理、工具调用、科学知识、算术推理和代码生成上具备基本能力。最终得分 0.37，接近 Opus 4.7（0.42）和 GPT-5.5（0.39），明显领先其余模型。

产品与定价

同步推出 MiniMax Code 桌面版（专为 M3 设计的 Agent 产品）和 Token Plan 订阅服务：

Plus 档：¥49/月，6 亿 token
Max 档：¥119/月，约 55 亿 token

API 已开放，模型权重和技术报告将在 10 天内发布。

Token Plan

竞争格局

过去一年，开源阵营在单维度上不断逼近闭源前沿——Coding 能力有 DeepSeek，长上下文有 Kimi，多模态有 Qwen-VL。M3 的差异在于首次将三者整合到同一模型中。开源权重释放后，开源社区的 fine-tune 和部署实践将直接站在一个没有明显短板的基座上。

来源：MiniMax 官方博客