标签: 语音合成

Voicebox：43K Stars 的开源 AI 语音工作室，7 引擎 TTS + MCP Agent 集成

Voicebox：一个开源项目把 ElevenLabs 和 WisprFlow 的活都干了当 AI 语音工具的市场被两家公司分占时——ElevenLabs 主导语音合成输出，WisprFlow 主导语音听写输入——一个名为 Voicebox 的开源项目正在尝试同时覆盖这两端，并且把整套流程跑在你自己的机器上。 Voicebox 由开发者 Jamie Pin…

2026/07/20开源 AI 语音合成

小米开源 OmniVoice：646 语种零样本语音克隆 TTS

小米 AI 实验室 k2-fsa 团队（新一代 Kaldi）开源了 OmniVoice，一个支持 646 种语言的零样本文本转语音（TTS）模型。代码和预训练权重已分别发布在 GitHub 和 HuggingFace 上，采用 Apache-2.0 协议。核心亮点语言覆盖最广：基于 50 个开源数据集构建的 58.1 万小时训练集，覆盖 646 种语言，…

2026/05/07开源小米 AI 语音合成 TTS

通义开源影视级配音大模型 Fun-CineForge，关键变化是把“时间”也做进了模型

通义实验室发布并开源了影视配音模型 Fun-CineForge。按官方介绍，它面向独白、旁白、对话、多说话人等多种影视场景，底层基于 CosyVoice3 的语音合成能力构建；对应论文也已上线 arXiv。这条消息真正值得看的，是这套模型把“时间”当成了一个单独的模态来处理。为什么“时间模态”这件事重要传统配音模型更常依赖文本、参考音色和可见嘴型去做音…

2026/03/16开源通义实验室 AI配音语音合成多模态