小米开源 OmniVoice：646 语种零样本语音克隆 TTS

小米 AI 实验室 k2-fsa 团队（新一代 Kaldi）开源了 OmniVoice，一个支持 646 种语言的零样本文本转语音（TTS）模型。代码和预训练权重已分别发布在 GitHub 和 HuggingFace 上，采用 Apache-2.0 协议。

核心亮点

语言覆盖最广：基于 50 个开源数据集构建的 58.1 万小时训练集，覆盖 646 种语言，包含大量此前无 TTS 支持的低资源语言和濒危语言。这是目前语言覆盖范围最广的零样本 TTS 模型。

极简架构：采用单阶段离散非自回归（NAR）扩散语言模型架构，直接将文本映射到多码本声学 token，去掉了传统 TTS 中"文本→语义→声学"的两阶段级联 pipeline。骨干网络为双向 Transformer，使用 Qwen3-0.6B 权重初始化，参数量 0.8B。

推理速度：PyTorch 推理 RTF 低至 0.025，即 40 倍实时速度。训练速度达 10 万小时/天。

两个关键设计使极简架构成为可能：

在 24 语种测试中超越 ElevenLabs v2、MiniMax 等商用系统，102 语种合成质量逼近真实语音。相比 CosyVoice（阿里，10+ 语种）、Fish-Speech（10+ 语种）、VibeVoice（微软，20+ 语种），OmniVoice 在语言覆盖广度上有数量级优势。