微软发布三款自研AI模型：从语音转写到图像生成，覆盖企业AI最核心场景

4/2/2026OpenAI AI Microsoft

微软今天发布了 3 款完全自研的 AI 基础模型：语音转写 MAI-Transcribe-1、语音生成 MAI-Voice-1、图像生成 MAI-Image-2。三款模型全部通过 Microsoft Foundry 和新的 MAI Playground 上线，覆盖了企业 AI 中商业价值最高的三类应用——语音转文本、文本转语音和图像生成。

这批模型出自 Mustafa Suleyman 去年组建的"超级智能"团队。Suleyman 此前是 DeepMind 联合创始人、Inflection AI CEO，2024 年加入微软。团队成立仅六个月，就交出了第一批能打的产出。

三款模型各有看点

MAI-Transcribe-1 是这次发布的头牌。这款语音转文本模型在 FLEURS 多语言基准测试中，以 3.8% 的平均词错率（WER）创下最低纪录，覆盖微软产品使用量最高的 25 种语言。按微软自己的基准数据，它在全部 25 种语言上超过 OpenAI 的 Whisper-large-v3，在 22 种语言上超过 Google Gemini 3.1 Flash，在 15 种语言上分别超过 ElevenLabs Scribe v2 和 OpenAI GPT-Transcribe。

模型采用双向音频编码器加 Transformer 文本解码器架构，支持 MP3、WAV、FLAC 格式，单文件上限 200MB。批量转写速度是现有 Azure Fast 方案的 2.5 倍。目前微软已在 Copilot Voice 模式和 Teams 会议转写中测试部署。说话人分离、上下文偏置和流式转写列为"即将推出"。

MAI-Voice-1 是微软的文本转语音模型，1 秒可生成 60 秒自然语音，并能在长内容中保持说话人一致性。一个实用亮点：仅需数秒音频即可定制专属声音。定价 $22/百万字符。

MAI-Image-2 是图像生成模型的升级版，在 Arena.ai 排行榜位列前三，Foundry 和 Copilot 中生成速度比前代至少快 2 倍。微软正在将其推送到 Bing 和 PowerPoint，定价 $5/百万 token 输入 + $33/百万 token 输出。全球最大广告控股公司 WPP 已成为首批大规模采用的合作伙伴。

合同解绑之后

要理解这批模型为什么重要，需要回到去年 10 月的关键节点。在 2025 年 10 月之前，微软受 2019 年与 OpenAI 签订的合同约束，无权独立追求通用人工智能。原合同规定，微软为 OpenAI 提供云计算基础设施，换得对 OpenAI 模型的使用授权。

当 OpenAI 开始将算力合作拓展到微软之外的合作伙伴（如软银）时，微软抓住了重新谈判的机会。修改后的合同取消了限制条款，同时保留了对 OpenAI 模型的授权到 2032 年。Suleyman 在接受 VentureBeat 采访时直白地表示："去年 9 月我们重新谈判了合同，这让我们能够独立推进自己的超级智能计划。"

翻译一下：微软既继续享受 OpenAI 的模型授权，又获得了自建前沿模型的自由。分销和自研两条线同时推进。

为什么是现在

时间点值得注意。微软股价刚创下 2008 年金融危机以来最差季度表现，投资人开始质疑数百亿美元 AI 基础设施投入何时能转化为实际收入。这批模型定价激进，同时直接降低微软自身的成本结构——Suleyman 在采访中提到，MAI-Transcribe-1 只需竞争对手一半的 GPU 就能达到同等性能。

对开发者而言，这三款模型提供了一个信号：微软正在把 AI 能力栈的控制权握在自己手里。过去你用 Azure 是在用 OpenAI 的模型，现在你在 Microsoft Foundry 上多了一个选择——微软自己的。

来源：VentureBeat