微软发布三款自研AI模型:从语音转写到图像生成,覆盖企业AI最核心场景
微软今天发布了 3 款完全自研的 AI 基础模型:语音转写 MAI-Transcribe-1、语音生成 MAI-Voice-1、图像生成 MAI-Image-2。三款模型全部通过 Microsoft Foundry 和新的 MAI Playground 上线,覆盖了企业 AI 中商业价值最高的三类应用——语音转文本、文本转语音和图像生成。
这批模型出自 Mustafa Suleyman 去年组建的"超级智能"团队。Suleyman 此前是 DeepMind 联合创始人、Inflection AI CEO,2024 年加入微软。团队成立仅六个月,就交出了第一批能打的产出。

三款模型各有看点
MAI-Transcribe-1 是这次发布的头牌。这款语音转文本模型在 FLEURS 多语言基准测试中,以 3.8% 的平均词错率(WER)创下最低纪录,覆盖微软产品使用量最高的 25 种语言。按微软自己的基准数据,它在全部 25 种语言上超过 OpenAI 的 Whisper-large-v3,在 22 种语言上超过 Google Gemini 3.1 Flash,在 15 种语言上分别超过 ElevenLabs Scribe v2 和 OpenAI GPT-Transcribe。
模型采用双向音频编码器加 Transformer 文本解码器架构,支持 MP3、WAV、FLAC 格式,单文件上限 200MB。批量转写速度是现有 Azure Fast 方案的 2.5 倍。目前微软已在 Copilot Voice 模式和 Teams 会议转写中测试部署。说话人分离、上下文偏置和流式转写列为"即将推出"。
MAI-Voice-1 是微软的文本转语音模型,1 秒可生成 60 秒自然语音,并能在长内容中保持说话人一致性。一个实用亮点:仅需数秒音频即可定制专属声音。定价 $22/百万字符。
MAI-Image-2 是图像生成模型的升级版,在 Arena.ai 排行榜位列前三,Foundry 和 Copilot 中生成速度比前代至少快 2 倍。微软正在将其推送到 Bing 和 PowerPoint,定价 $5/百万 token 输入 + $33/百万 token 输出。全球最大广告控股公司 WPP 已成为首批大规模采用的合作伙伴。
合同解绑之后
要理解这批模型为什么重要,需要回到去年 10 月的关键节点。在 2025 年 10 月之前,微软受 2019 年与 OpenAI 签订的合同约束,无权独立追求通用人工智能。原合同规定,微软为 OpenAI 提供云计算基础设施,换得对 OpenAI 模型的使用授权。
当 OpenAI 开始将算力合作拓展到微软之外的合作伙伴(如软银)时,微软抓住了重新谈判的机会。修改后的合同取消了限制条款,同时保留了对 OpenAI 模型的授权到 2032 年。Suleyman 在接受 VentureBeat 采访时直白地表示:"去年 9 月我们重新谈判了合同,这让我们能够独立推进自己的超级智能计划。"
翻译一下:微软既继续享受 OpenAI 的模型授权,又获得了自建前沿模型的自由。分销和自研两条线同时推进。
为什么是现在
时间点值得注意。微软股价刚创下 2008 年金融危机以来最差季度表现,投资人开始质疑数百亿美元 AI 基础设施投入何时能转化为实际收入。这批模型定价激进,同时直接降低微软自身的成本结构——Suleyman 在采访中提到,MAI-Transcribe-1 只需竞争对手一半的 GPU 就能达到同等性能。
对开发者而言,这三款模型提供了一个信号:微软正在把 AI 能力栈的控制权握在自己手里。过去你用 Azure 是在用 OpenAI 的模型,现在你在 Microsoft Foundry 上多了一个选择——微软自己的。
来源:VentureBeat
- 鸿海 Q4 利润不及预期,给 AI 硬件热泼了一盆冷水3/16/2026
- 据路透:华虹旗下华力微电子拟量产 7 纳米,华虹或成中国第二家 7nm 代工厂3/16/2026
- OpenAI 发布 GPT-5.4 mini 与 nano:小模型加速冲刺3/17/2026
- 《华盛顿邮报》把 AI 用到订阅定价上,媒体的个性化收费又往前走了一步3/17/2026
- 据报道,微软搁置 Windows 11 多项 Copilot 系统级整合计划3/16/2026
- 八家科技巨头签署反诈骗协议,平台反诈开始从单案协作走向跨平台联防3/16/2026
- Google 把 Stitch 升级成 AI 原生设计画布3/19/2026
- ChatGPT App 的模型切换入口,突然变得很难找3/17/2026
- iOS 26.4 RC 发布:Apple Music 有 AI 歌单,Podcasts 支持视频3/18/2026
- Firefox 149 内置免费 VPN:50GB 月流量,首批限四国3/19/2026
- 椰树集团相关公司招标 50 台人形机器人剥椰子,产线开始提具体指标了3/19/2026
- Google AI Studio 升级全栈 vibe coding:Antigravity 代理来了3/20/2026
- 欧盟推去衣AI禁令:3月26日表决,执法难在哪3/19/2026
- 中国加大对 Meta 收购 Manus 审查:高管限制离境,审查升至国家层面3/18/2026
- 营收涨三倍,宇树科技冲刺科创板3/20/2026
- OpenAI 收购 Astral:Python 工具链收编加速3/19/2026
- 小米推理模型 MiMo-V2-Pro 上线:智能指数 49,榜单排第 103/18/2026
- 谷歌 Gemini Mac 版内测:桌面端补课正式开始3/20/2026
- Anthropic 超 8 万用户调研:81% 认为 AI 正兑现预期3/19/2026
- 小米三款大模型齐发:MiMo-V2-Pro、Omni、TTS 完整解读3/19/2026
- Claude Code 上线 Channels:用 Telegram 和 Discord 操控本地编程任务3/20/2026
- DLSS 5 引发的争议:老黄说批评者完全错误3/19/2026
- MiniMax 发布 M2.7:国内首个公开的模型自我进化方案3/18/2026
- 英伟达把 DLSS 5 说清楚了:输入只有 2D 帧和运动矢量3/21/2026
- Kimi 员工指称 MiniMax 沿用其 Office Skill 代码始末3/19/2026
- 多地试点一人公司:免费公寓+办公空间,能否激活个体创新?3/19/2026
- Google 测试改写搜索结果网页标题,网站对标题的控制权又退了一步3/20/2026
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- 短视频内容标注,准备进入统一规则阶段3/21/2026
- 苹果把 WWDC 2026 定在 6 月 8 日,AI 与开发者工具会是重点3/23/2026