MiniMax M3 发布:1M 上下文 + 原生多模态 + 前沿 Coding

MiniMax M3 Benchmark

MiniMax 今日正式发布 M3 模型。这是一个同时具备前沿 Coding 能力、百万级上下文和原生多模态的模型——国内第一个,也是目前全球唯一达成这一配置的开源模型。

M3 采用 MiniMax 自研的 MSA(MiniMax Sparse Attention)稀疏注意力架构,最高支持 1M 上下文窗口。在 100 万 token 的上下文长度下,每 token 计算量仅为上代模型的 1/20,prefill 阶段实现 9 倍加速,decode 阶段实现 15 倍加速。

MSA:从注意力机制底层解决 Context Scaling

全注意力机制的计算复杂度随序列长度呈平方级增长,这是大模型扩展上下文窗口的核心瓶颈。MSA 通过 block-level 选取和真实 KV 空间注意力,在避免复杂度爆炸的同时实现更高的有效上下文覆盖。

与 DSA、MoBA 等现有稀疏注意力方案相比,MSA 的核心差异在于算子层优化——采用以 KV 块为外层聚合命中 query 的 KV outer gather Q 机制,每块只读一次、访存连续。在 MiniMax 的 head 配比下,计算访存比显著优于通行方法,比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上。

MSA 架构

在多个对照实验中,MSA 的绝大部分能力与全注意力打平,做到了效率与质量的兼顾。

Benchmark:与全球前沿模型正面对比

在涵盖编程、Agent 工具调用、浏览器操作、多模态理解等多个维度的 10 项国际权威评测中,M3 的表现:

  • SWE-Bench Pro:59.0%,超过 GPT-5.5(58.6)和 Gemini 3.1 Pro(54.2)
  • SVG-Bench:63.7%,超过 Opus 4.7(62.3),该项最高分
  • Terminal Bench 2.1:66.0%
  • BrowseComp:83.5%
  • MCP Atlas:74.2%(Agent 工具调用能力)
  • OSWorld-verified:70.0%(真实操作系统任务)
  • KernelBench Hard:28.8%
  • BankerToolBench:76.1%
  • VIBE V2:50.1%
  • GDPval rubrics:74.7%

单项来看,Opus 4.7 在多数编程/Agent 评测中仍保持领先,但 M3 作为开源模型在多个维度已可与之正面竞争。在 SVG-Bench 上甚至取得最高分。

原生多模态:Step 0 混合训练

M3 从 Step 0 开始进行多模态混合训练,文本和图像等模态在序列中交替自然排列(Interleaved 数据)。MiniMax 的实验表明,Interleaved 数据对模型整体性能的提升比一般认知的关键得多。

在重构整套数据管线后,MiniMax 已将训练数据 token 规模提升至 100 万亿量级。模型原生支持图片和视频输入,并能操作电脑桌面。

实际任务验证

Benchmark 数据之外,MiniMax 展示了三个高难度的实际任务:

论文独立复现:M3 独立复现了 ICLR 2025 Outstanding Paper Award 获奖论文 Learning Dynamics of LLM Finetuning,自主运行近 12 小时,产出 18 次 commit 和 23 张实验图表,成功吻合 SFT 阶段预测概率变化趋势,观测到 DPO 的 squeezing 效应,并验证了原论文的 Extend 缓解方法。

论文复现

CUDA 算子优化:在 NVIDIA Hopper 架构 GPU 上自主优化 FP8 GEMM kernel,147 次 benchmark 提交、1959 次工具调用,将硬件峰值利用率从 7.6% 推进至 71.3%,实现 9.4 倍加速。最优解出现在第 145 次提交——经历了多个性能平台期后仍在持续探索不同优化方向。

CUDA 优化

自主训练 Base 模型:PostTrainBench 测试中,M3 自主完成「数据合成→训练→评测→迭代」全流程,让四个不具备任何下游能力的 Base 模型在数学推理、工具调用、科学知识、算术推理和代码生成上具备基本能力。最终得分 0.37,接近 Opus 4.7(0.42)和 GPT-5.5(0.39),明显领先其余模型。

产品与定价

同步推出 MiniMax Code 桌面版(专为 M3 设计的 Agent 产品)和 Token Plan 订阅服务:

  • Plus 档:¥49/月,6 亿 token
  • Max 档:¥119/月,约 55 亿 token

API 已开放,模型权重和技术报告将在 10 天内发布。

Token Plan

竞争格局

过去一年,开源阵营在单维度上不断逼近闭源前沿——Coding 能力有 DeepSeek,长上下文有 Kimi,多模态有 Qwen-VL。M3 的差异在于首次将三者整合到同一模型中。开源权重释放后,开源社区的 fine-tune 和部署实践将直接站在一个没有明显短板的基座上。

来源:MiniMax 官方博客

相关推荐