小米开源 OmniVoice:646 语种零样本语音克隆 TTS

小米 AI 实验室 k2-fsa 团队(新一代 Kaldi)开源了 OmniVoice,一个支持 646 种语言的零样本文本转语音(TTS)模型。代码和预训练权重已分别发布在 GitHub 和 HuggingFace 上,采用 Apache-2.0 协议。

核心亮点

语言覆盖最广:基于 50 个开源数据集构建的 58.1 万小时训练集,覆盖 646 种语言,包含大量此前无 TTS 支持的低资源语言和濒危语言。这是目前语言覆盖范围最广的零样本 TTS 模型。

极简架构:采用单阶段离散非自回归(NAR)扩散语言模型架构,直接将文本映射到多码本声学 token,去掉了传统 TTS 中"文本→语义→声学"的两阶段级联 pipeline。骨干网络为双向 Transformer,使用 Qwen3-0.6B 权重初始化,参数量 0.8B。

推理速度:PyTorch 推理 RTF 低至 0.025,即 40 倍实时速度。训练速度达 10 万小时/天。

技术创新

两个关键设计使极简架构成为可能:

  • 全码本随机掩蔽:训练时对所有码本位置随机掩蔽,大幅提升训练效率
  • LLM 权重初始化:从预训练大语言模型初始化,确保可懂度(中文 WER 0.84%,英文 WER 1.57%)

功能支持

  • 零样本语音克隆:3-10 秒参考音频即可克隆音色,支持跨语言克隆
  • 音色设计:通过性别、年龄、音调、口音、方言等属性描述生成声音
  • 带噪适配:对含噪/混响的参考音频有自动去噪能力
  • 发音纠正:通过拼音或音素精确控制发音
  • 副语言控制:支持笑声等非语言符号

与同类对比

在 24 语种测试中超越 ElevenLabs v2、MiniMax 等商用系统,102 语种合成质量逼近真实语音。相比 CosyVoice(阿里,10+ 语种)、Fish-Speech(10+ 语种)、VibeVoice(微软,20+ 语种),OmniVoice 在语言覆盖广度上有数量级优势。

GitHub: https://github.com/k2-fsa/OmniVoice arXiv: https://arxiv.org/abs/2604.00688

相关推荐