标签: 语音合成 清除筛选
通义开源影视级配音大模型 Fun-CineForge,关键变化是把“时间”也做进了模型
通义实验室发布并开源了影视配音模型 Fun-CineForge。按官方介绍,它面向独白、旁白、对话、多说话人等多种影视场景,底层基于 CosyVoice3 的语音合成能力构建;对应论文也已上线 arXiv。
这条消息真正值得看的,是这套模型把“时间”当成了一个单独的模态来处理。
为什么“时间模态”这件事重要传统配音模型更常依赖文本、参考音色和可见嘴型去做音画同步。但影视场景远比单人正脸说话复杂:镜头切换、多人对话、人物遮挡、脸部模糊,都会让“看嘴型配音”这条路迅速变难。
通义这次强调的关键创新,是把时间信息显式放进模型里,让模型不仅知道“说什么、像谁说”,还知道“谁在什么时候说
