小米MiMo万亿参数模型推理速度突破1000 tokens/s
推理速度:大模型竞争的下一个主战场
2026年,大模型竞赛正进入一个新维度。从高频量化交易到实时风控,从多Agent协同推理到自动驾驶决策,越来越多对延迟极度敏感的场景开始要求模型不仅"够聪明",更要"够快"。GPT-5.5的68 tokens/s、Claude的71 tokens/s,在传统文本生成场景中或许够用,但在毫秒级决策窗口的工业场景下,这些数字远远不够。
OpenAI、Anthropic、Google在2025-2026年密集推出推理优化方案,但这场速度竞赛的最新引爆者,来自一个许多人意想不到的名字——小米。2026年6月,小米联合TileRT发布MiMo-V2.5-Pro-UltraSpeed,在单节点8张通用GPU上将万亿参数模型的解码速度推到了超过1000 tokens/s,峰值可达1200。

三层协同加速:FP4 × DFlash × TileRT
MiMo-V2.5-Pro-UltraSpeed的核心技术架构可以概括为"三层协同加速",每一层针对不同的性能瓶颈,且三者之间存在精妙的互补关系。
第一层:FP4量化——精准压缩Expert层
在万亿参数的MoE(混合专家)架构中,Expert层占据了绝大部分参数量(通常超过90%)。FP4量化使用MXFP4格式,仅对Expert层进行4位压缩,其余模块保持FP8或更高精度。这意味着被压缩的部分天然对精度损失容忍度最高,而关键路由和非Expert计算不受影响。
通过量化感知训练(QAT),模型在压缩后的精度表现与原始版本几乎持平。实测数据显示,FP4版本的benchmark得分与FP16基准的差异在统计噪声范围内。
第二层:DFlash推测解码——block级并行预测
传统的推测解码(Speculative Decoding)使用一个小型draft模型逐token预测,然后由大模型并行验证。这个方案虽然有效,但draft模型的串行生成仍然构成瓶颈。
DFlash彻底改变了这个模式。它采用block级掩码并行预测:在单次前向传播中,draft模型同时预测一个完整block中的所有掩码位置。实测显示,在编码任务中,大模型平均接受6.3/8个预测token(接受率78.75%),这意味着每轮验证可以确认6个token,而非传统方法的1个。
第三层:TileRT运行时——GPU执行架构重构
在1000 tokens/s的速度下,每个算子的执行时间以微秒计。传统系统逐个launch算子,每次launch本身的开销就会成为瓶颈。TileRT用Persistent Engine Kernel解决这个问题——计算内核常驻GPU,不释放,消除了算子切换的延迟。
同时,Warp Specialization将数据搬运、计算和通信分为不同的协同角色,确保GPU流水线在每个周期都保持满载运行。小米强调,TileRT与FP4和DFlash的选择是协同设计的,不是事后添加的优化层。
| 维度 | MiMo-V2.5-Pro(标准版) | UltraSpeed |
|---|---|---|
| 解码速度 | 基准 | 约10倍(1000+ tokens/s) |
| 定价 | 1倍 | 3倍 |
| 权重精度 | 标准 | FP4 MoE Expert(QAT) |
| 解码方式 | 标准自回归 | DFlash推测解码 |
| 接入方式 | 标准套餐 | 仅API,申请制试用 |
| Token Plan | 支持 | 不支持 |
性能对比:15倍于主流模型
将MiMo UltraSpeed放在当前主流模型的推理速度坐标系中:
| 模型 | 解码速度(tokens/s) | 备注 |
|---|---|---|
| MiMo-V2.5-Pro-UltraSpeed | 1000+(峰值1200) | 单节点8×通用GPU |
| Gemini Flash | 192 | |
| Claude Opus 4.6 | ~71 | Anthropic |
| GPT-5.5 | ~68 | OpenAI |
| Claude Haiku | ~98 | Anthropic |
这意味着同样生成3000字的内容,GPT-5.5需要约44秒,Claude需要约42秒,而MiMo UltraSpeed只需要不到3秒。
商业策略与应用场景
定价:3倍价格,10倍速度
MiMo-V2.5-Pro的定价为:输入0.025元/百万tokens(缓存命中)或3元(未命中),输出6元/百万tokens。UltraSpeed的API定价为标准版的3倍,但提供约10倍的输出速度。
对于量化交易、实时风控、大规模Agent循环等对延迟极度敏感的场景,3倍价格换10倍速度是一个极具吸引力的性价比 proposition。而对于普通文本生成场景,标准版依然是最优选择。
限时API试用
UltraSpeed目前采用申请制限时开放:
- 试用期限:2026年6月9日至6月23日
- 每日限排队10次,单次最多30分钟,5分钟空闲释放
- 优先面向企业用户和专业开发者
- 不支持Token Plan,仅支持API调用
开源策略
小米将FP4-DFlash的checkpoint在HuggingFace上以MIT协议开源。无论是否使用小米的API,社区都可以自行部署和验证这些技术。TileRT也开源了部分模块。
总结:速度即竞争力
MiMo-V2.5-Pro-UltraSpeed的意义不仅在于一个具体的速度数字,而在于它证明了一个方向:万亿参数模型在通用GPU上完全可以实现千token级别的推理吞吐,不需要定制芯片。
训练能力正在趋于同质化,但推理效率——谁能用最低的成本、最少的硬件资源、最快的时间产出最多的有效token——正成为下一个核心竞争维度。小米这次的"极致模型-系统协同设计"给出了一条可行的路径:从量化精度、推测解码到运行时架构,每一层都必须针对推理场景做深度优化,而非简单复用训练时的配置。
推理速度的竞赛才刚刚开始。1000 tokens/s是今天的里程碑,下一个目标可能是5000,甚至10000。而这场竞赛的赢家,很可能就是那些从现在就开始在推理系统层面做深度投入的团队。
来源:MarkTechPost | 小米官方博客
- 据路透:华虹旗下华力微电子拟量产 7 纳米,华虹或成中国第二家 7nm 代工厂3/16/2026
- 鸿海 Q4 利润不及预期,给 AI 硬件热泼了一盆冷水3/16/2026
- iOS 26.4 RC 发布:Apple Music 有 AI 歌单,Podcasts 支持视频3/18/2026
- 小米推理模型 MiMo-V2-Pro 上线:智能指数 49,榜单排第 103/18/2026
- MiniMax 发布 M2.7:国内首个公开的模型自我进化方案3/18/2026
- 中国加大对 Meta 收购 Manus 审查:高管限制离境,审查升至国家层面3/18/2026
- ChatGPT App 的模型切换入口,突然变得很难找3/17/2026
- 《华盛顿邮报》把 AI 用到订阅定价上,媒体的个性化收费又往前走了一步3/17/2026
- 据报道,微软搁置 Windows 11 多项 Copilot 系统级整合计划3/16/2026
- 爱泼斯坦案幸存者起诉 Google:AI 搜索放大了数据泄露的伤害3/27/2026
- 苹果把 WWDC 2026 定在 6 月 8 日,AI 与开发者工具会是重点3/23/2026
- Google 测试改写搜索结果网页标题,网站对标题的控制权又退了一步3/20/2026
- Firefox 149 内置免费 VPN:50GB 月流量,首批限四国3/19/2026
- Google 把 Stitch 升级成 AI 原生设计画布3/19/2026
- DLSS 5 引发的争议:老黄说批评者完全错误3/19/2026
- 小米三款大模型齐发:MiMo-V2-Pro、Omni、TTS 完整解读3/19/2026
- 营收涨三倍,宇树科技冲刺科创板3/20/2026
- 谷歌 Gemini Mac 版内测:桌面端补课正式开始3/20/2026
- Google AI Studio 升级全栈 vibe coding:Antigravity 代理来了3/20/2026
- 椰树集团相关公司招标 50 台人形机器人剥椰子,产线开始提具体指标了3/19/2026
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- 欧盟推去衣AI禁令:3月26日表决,执法难在哪3/19/2026
- OpenAI 发布 GPT-5.4 mini 与 nano:小模型加速冲刺3/17/2026
- 英伟达把 DLSS 5 说清楚了:输入只有 2D 帧和运动矢量3/21/2026
- 短视频内容标注,准备进入统一规则阶段3/21/2026
- Claude Code 上线 Channels:用 Telegram 和 Discord 操控本地编程任务3/20/2026
- Kimi 员工指称 MiniMax 沿用其 Office Skill 代码始末3/19/2026
- OpenAI 收购 Astral:Python 工具链收编加速3/19/2026
- Anthropic 超 8 万用户调研:81% 认为 AI 正兑现预期3/19/2026
- 多地试点一人公司:免费公寓+办公空间,能否激活个体创新?3/19/2026