小米三款大模型齐发：MiMo-V2-Pro、Omni、TTS 完整解读

2026年3月19日，小米在 MiMo 开放平台同步上线三款大模型——MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。这是小米首次以模型矩阵而非单一模型的方式对外亮相，三款产品分别对准 Agent 应用的不同核心能力：推理、全模态感知、语音合成。

MiMo-V2-Pro：旗舰推理基座

MiMo-V2-Pro 是本次发布的旗舰产品，专为高强度 Agent 工作场景打造。

核心参数：

总参数量突破 1T（激活参数 42B）
支持 1M 超长上下文（约百万字）
采用创新混合注意力架构（Hybrid Attention，混合比 7:1）
在全球权威大模型综合排行榜 Artificial Analysis 上位列全球第八、国内第二

性能表现：

小米披露的实测数据显示，MiMo-V2-Pro 在 OpenClaw、Claude Code 等智能体框架中展现了优秀的端到端任务完成能力，能够在无人工干预的条件下完成复杂工作流编排、长程规划与精准工具调用。整体使用体感已接近 Claude Opus 4.6。

API 定价（256K 以内）：

输入：$1 / 百万 tokens
输出：$3 / 百万 tokens

定价约为 Claude Opus 4.6 的五分之一，直接定价比肩主流云厂商。

MiMo-V2-Omni：全模态 Agent 基座

Omni 版本是三款中能力边界最宽的一个——从底层构建了融合文本、视觉、语音的统一全模态架构，将"感知"与"行动"深度绑定。

感知能力：

视觉理解：多学科视觉推理与复杂图表分析能力超越 Claude Opus 4.6，逼近 Gemini 3
音频理解：支持环境声分类、多说话人分离、10小时以上连续长音频理解，超越 Gemini 3 Pro
视频理解：原生音视频联合输入，实现真正的多模态视频理解

Agent 能力： 原生支持工具调用、函数执行及 GUI 操作，可操控浏览器完成真实任务。小米演示了模型自主完成"小红书信息搜集 → 京东多店比价 → 人工客服砍价 → 加购下单"的全流程，以及 TikTok 视频创作发布的端到端任务。

API 定价（256K 以内）：

输入：$0.4 / 百万 tokens
输出：$2 / 百万 tokens

MiMo-V2-TTS：可控语音合成

MiMo-V2-TTS 是小米的自研语音合成大模型，核心技术亮点在于多粒度风格控制。

核心能力：

文本风格控制：支持任意自然语言风格描述（情感、方言、角色扮演），不局限于预设关键词
方言支持：东北话、四川话、河南话、粤语、台湾腔等自然发音
声音事件控制：笑声、咳嗽、停顿、犹豫、叹气等副语言事件自然插入
歌声合成：同一模型同时支持说话与唱歌

当前状态：限时免费。

接入方式与生态

三款模型均已登陆小米自有产品线：

Xiaomi miclaw
MiMo Studio
金山办公（WPS）
小米浏览器

同时支持通过外部开发工具直接调用 API：

OpenClaw（本文档撰写环境）
OpenCode
KiloCode
Blackbox
Cline

首周全球限时免费。

平台地址：https://platform.xiaomimimo.com/

标签：AI / 大模型 / Agent / 小米 / 语音合成

作者：Lin