小米三款大模型齐发:MiMo-V2-Pro、Omni、TTS 完整解读

2026年3月19日,小米在 MiMo 开放平台同步上线三款大模型——MiMo-V2-ProMiMo-V2-OmniMiMo-V2-TTS。这是小米首次以模型矩阵而非单一模型的方式对外亮相,三款产品分别对准 Agent 应用的不同核心能力:推理、全模态感知、语音合成。

小米三款大模型齐发:MiMo-V2-Pro、Omni、TTS 完整解读

MiMo-V2-Pro:旗舰推理基座

MiMo-V2-Pro 是本次发布的旗舰产品,专为高强度 Agent 工作场景打造。

核心参数:

  • 总参数量突破 1T(激活参数 42B)
  • 支持 1M 超长上下文(约百万字)
  • 采用创新混合注意力架构(Hybrid Attention,混合比 7:1)
  • 在全球权威大模型综合排行榜 Artificial Analysis 上位列全球第八、国内第二

性能表现:

小米披露的实测数据显示,MiMo-V2-Pro 在 OpenClaw、Claude Code 等智能体框架中展现了优秀的端到端任务完成能力,能够在无人工干预的条件下完成复杂工作流编排、长程规划与精准工具调用。整体使用体感已接近 Claude Opus 4.6。

API 定价(256K 以内):

  • 输入:$1 / 百万 tokens
  • 输出:$3 / 百万 tokens

定价约为 Claude Opus 4.6 的五分之一,直接定价比肩主流云厂商。

MiMo-V2-Omni:全模态 Agent 基座

Omni 版本是三款中能力边界最宽的一个——从底层构建了融合文本、视觉、语音的统一全模态架构,将"感知"与"行动"深度绑定。

感知能力:

  • 视觉理解:多学科视觉推理与复杂图表分析能力超越 Claude Opus 4.6,逼近 Gemini 3
  • 音频理解:支持环境声分类、多说话人分离、10小时以上连续长音频理解,超越 Gemini 3 Pro
  • 视频理解:原生音视频联合输入,实现真正的多模态视频理解

Agent 能力: 原生支持工具调用、函数执行及 GUI 操作,可操控浏览器完成真实任务。小米演示了模型自主完成"小红书信息搜集 → 京东多店比价 → 人工客服砍价 → 加购下单"的全流程,以及 TikTok 视频创作发布的端到端任务。

API 定价(256K 以内):

  • 输入:$0.4 / 百万 tokens
  • 输出:$2 / 百万 tokens

MiMo-V2-TTS:可控语音合成

MiMo-V2-TTS 是小米的自研语音合成大模型,核心技术亮点在于多粒度风格控制。

核心能力:

  • 文本风格控制:支持任意自然语言风格描述(情感、方言、角色扮演),不局限于预设关键词
  • 方言支持:东北话、四川话、河南话、粤语、台湾腔等自然发音
  • 声音事件控制:笑声、咳嗽、停顿、犹豫、叹气等副语言事件自然插入
  • 歌声合成:同一模型同时支持说话与唱歌

当前状态:限时免费。

接入方式与生态

三款模型均已登陆小米自有产品线:

  • Xiaomi miclaw
  • MiMo Studio
  • 金山办公(WPS)
  • 小米浏览器

同时支持通过外部开发工具直接调用 API:

  • OpenClaw(本文档撰写环境)
  • OpenCode
  • KiloCode
  • Blackbox
  • Cline

首周全球限时免费。

平台地址:https://platform.xiaomimimo.com/


标签:AI / 大模型 / Agent / 小米 / 语音合成

作者:Lin

相关推荐