通义开源影视级配音大模型 Fun-CineForge，关键变化是把“时间”也做进了模型

通义实验室发布并开源了影视配音模型 Fun-CineForge。按官方介绍，它面向独白、旁白、对话、多说话人等多种影视场景，底层基于 CosyVoice3 的语音合成能力构建；对应论文也已上线 arXiv。

这条消息真正值得看的，是这套模型把“时间”当成了一个单独的模态来处理。

为什么“时间模态”这件事重要

传统配音模型更常依赖文本、参考音色和可见嘴型去做音画同步。但影视场景远比单人正脸说话复杂：镜头切换、多人对话、人物遮挡、脸部模糊，都会让“看嘴型配音”这条路迅速变难。

通义这次强调的关键创新，是把时间信息显式放进模型里，让模型不仅知道“说什么、像谁说”，还知道“谁在什么时候说、什么时候停”。这会直接影响时间对齐、说话人切换和口型同步的稳定性。

官方给出的输入条件包括：无声视频片段、配音文本、角色属性与情感线索、时间信息和参考语音。换句话说，这已经不是普通 TTS 的延长线，而是在往更接近真实影视后期流程的方向走。

按照官方稿和论文摘要，Fun-CineForge 面向的是独白、旁白、对话、多说话人等多类场景。论文摘要写到，模型在 monologue、narration、dialogue、multi-speaker scenes 上做了实验，整体在音质、lip sync、音色迁移和指令跟随上优于现有方法。

官方稿还进一步给出了一组更具体的表述：在独白场景下，对比 DeepDubber-V1 和 InstructDubber，Fun-CineForge 在词错率、唇部同步、时间对齐、音色相似度等指标上表现更好。

这意味着它的目标已经不只是“把一句话说出来”，而是尽量把影视配音里最难的几件事同时兼顾：时机、口型、角色、情绪和音色一致性。

这次开源已经同步到了 GitHub、HuggingFace 和 ModelScope，开发者可以直接体验样例和模型能力。官方同时提到，当前支持 30 秒以内的视频片段推理。

这句限制其实也很重要。它说明 Fun-CineForge 现在更像是把影视级 AI 配音往前推了一大步，但还不能直接等同于“长视频工业化配音已经成熟”。官方自己也承认，视频越长、给定时间戳区间和参考角色音频越多，音画同步和音色克隆准确性会下降，多人对话场景的鲁棒性也会受影响。

如果这类模型后面继续迭代，真正会改变的，不只是内容创作者能不能做几段更顺滑的 AI 配音 demo，而是动画、短剧、游戏、本地化翻译和影视后期里一部分原本很吃人工流程的环节，会不会被重新组织。

Fun-CineForge 这次最有价值的地方，是它把“时间”从辅助信息提升成了模型理解配音任务的一部分。这一步如果走通，后面的对话场景、多角色配音、镜头切换和跨语种本地化，才更有机会做得像回事。

参考来源：通义实验室公众号、arXiv 论文。