小米MiMo万亿参数模型推理速度突破1000 tokens/s

6/9/2026小米 AI 大模型推理加速

推理速度：大模型竞争的下一个主战场

2026年，大模型竞赛正进入一个新维度。从高频量化交易到实时风控，从多Agent协同推理到自动驾驶决策，越来越多对延迟极度敏感的场景开始要求模型不仅"够聪明"，更要"够快"。GPT-5.5的68 tokens/s、Claude的71 tokens/s，在传统文本生成场景中或许够用，但在毫秒级决策窗口的工业场景下，这些数字远远不够。

OpenAI、Anthropic、Google在2025-2026年密集推出推理优化方案，但这场速度竞赛的最新引爆者，来自一个许多人意想不到的名字——小米。2026年6月，小米联合TileRT发布MiMo-V2.5-Pro-UltraSpeed，在单节点8张通用GPU上将万亿参数模型的解码速度推到了超过1000 tokens/s，峰值可达1200。

MiMo-V2.5-Pro-UltraSpeed

三层协同加速：FP4 × DFlash × TileRT

MiMo-V2.5-Pro-UltraSpeed的核心技术架构可以概括为"三层协同加速"，每一层针对不同的性能瓶颈，且三者之间存在精妙的互补关系。

第一层：FP4量化——精准压缩Expert层

在万亿参数的MoE（混合专家）架构中，Expert层占据了绝大部分参数量（通常超过90%）。FP4量化使用MXFP4格式，仅对Expert层进行4位压缩，其余模块保持FP8或更高精度。这意味着被压缩的部分天然对精度损失容忍度最高，而关键路由和非Expert计算不受影响。

通过量化感知训练（QAT），模型在压缩后的精度表现与原始版本几乎持平。实测数据显示，FP4版本的benchmark得分与FP16基准的差异在统计噪声范围内。

第二层：DFlash推测解码——block级并行预测

传统的推测解码（Speculative Decoding）使用一个小型draft模型逐token预测，然后由大模型并行验证。这个方案虽然有效，但draft模型的串行生成仍然构成瓶颈。

DFlash彻底改变了这个模式。它采用block级掩码并行预测：在单次前向传播中，draft模型同时预测一个完整block中的所有掩码位置。实测显示，在编码任务中，大模型平均接受6.3/8个预测token（接受率78.75%），这意味着每轮验证可以确认6个token，而非传统方法的1个。

第三层：TileRT运行时——GPU执行架构重构

在1000 tokens/s的速度下，每个算子的执行时间以微秒计。传统系统逐个launch算子，每次launch本身的开销就会成为瓶颈。TileRT用Persistent Engine Kernel解决这个问题——计算内核常驻GPU，不释放，消除了算子切换的延迟。

同时，Warp Specialization将数据搬运、计算和通信分为不同的协同角色，确保GPU流水线在每个周期都保持满载运行。小米强调，TileRT与FP4和DFlash的选择是协同设计的，不是事后添加的优化层。

维度	MiMo-V2.5-Pro（标准版）	UltraSpeed
解码速度	基准	约10倍（1000+ tokens/s）
定价	1倍	3倍
权重精度	标准	FP4 MoE Expert（QAT）
解码方式	标准自回归	DFlash推测解码
接入方式	标准套餐	仅API，申请制试用
Token Plan	支持	不支持

性能对比：15倍于主流模型

将MiMo UltraSpeed放在当前主流模型的推理速度坐标系中：

模型	解码速度（tokens/s）	备注
MiMo-V2.5-Pro-UltraSpeed	1000+（峰值1200）	单节点8×通用GPU
Gemini Flash	192	Google
Claude Opus 4.6	~71	Anthropic
GPT-5.5	~68	OpenAI
Claude Haiku	~98	Anthropic

这意味着同样生成3000字的内容，GPT-5.5需要约44秒，Claude需要约42秒，而MiMo UltraSpeed只需要不到3秒。

商业策略与应用场景

定价：3倍价格，10倍速度

MiMo-V2.5-Pro的定价为：输入0.025元/百万tokens（缓存命中）或3元（未命中），输出6元/百万tokens。UltraSpeed的API定价为标准版的3倍，但提供约10倍的输出速度。

对于量化交易、实时风控、大规模Agent循环等对延迟极度敏感的场景，3倍价格换10倍速度是一个极具吸引力的性价比 proposition。而对于普通文本生成场景，标准版依然是最优选择。

限时API试用

UltraSpeed目前采用申请制限时开放：

试用期限：2026年6月9日至6月23日
每日限排队10次，单次最多30分钟，5分钟空闲释放
优先面向企业用户和专业开发者
不支持Token Plan，仅支持API调用

开源策略

小米将FP4-DFlash的checkpoint在HuggingFace上以MIT协议开源。无论是否使用小米的API，社区都可以自行部署和验证这些技术。TileRT也开源了部分模块。

总结：速度即竞争力

MiMo-V2.5-Pro-UltraSpeed的意义不仅在于一个具体的速度数字，而在于它证明了一个方向：万亿参数模型在通用GPU上完全可以实现千token级别的推理吞吐，不需要定制芯片。

训练能力正在趋于同质化，但推理效率——谁能用最低的成本、最少的硬件资源、最快的时间产出最多的有效token——正成为下一个核心竞争维度。小米这次的"极致模型-系统协同设计"给出了一条可行的路径：从量化精度、推测解码到运行时架构，每一层都必须针对推理场景做深度优化，而非简单复用训练时的配置。

推理速度的竞赛才刚刚开始。1000 tokens/s是今天的里程碑，下一个目标可能是5000，甚至10000。而这场竞赛的赢家，很可能就是那些从现在就开始在推理系统层面做深度投入的团队。

来源：MarkTechPost | 小米官方博客