字节跳动发布 Seeduplex:全双工语音模型在豆包全面上线

4 月 9 日,字节跳动正式推出 Seeduplex——一款原生全双工端到端语音大模型,目前已全量上线豆包 App。

传统语音交互系统大多采用半双工范式:严格遵循"你讲我听、我讲你听"的轮流机制。这种模式在面对真实世界中复杂的声学环境和碎片化的交流习惯时,局限性明显。

Seeduplex 的核心突破在于实现了"边听边说"。模型在持续接收用户语音的同时,可以同步输出回应,不再需要等待用户说完才开始处理。这一能力基于海量语音数据预训练与强化学习(RL),通过语音语义联合建模,将对话节奏控制、强抗干扰、精准轮次切换与指向性理解等能力融入模型训练体系。

Seeduplex 产品图

精准抗干扰

现实中的语音交互场景充满干扰:背景噪音、旁人对话、导航播报等。Seeduplex 能够持续接收并理解用户侧的全局声学环境,精准判断哪些声音是针对模型的指令,哪些是干扰。

具体场景包括:

  • 声场理解与主动联动:听到背景音中的相关信息后,能主动结合对话上下文给出回应
  • 剥离环境干扰:在车内导航声混杂的场景下,稳定锁定用户声音并快速响应
  • 意图识别与过滤:在咖啡厅、居家等多人场景下,自动忽略旁人插话,避免误回复和误打断

Seeduplex 抗干扰场景演示

动态判停

自然对话的关键在于准确判断用户何时在思考、何时已说完。Seeduplex 在对话节奏把控上表现出更强的灵活性:

  • 打断响应延迟缩短约 300ms,能快速感知用户中断意图并转入聆听
  • 判停延迟降低约 250ms,用户话音落下后以更低延迟接话
  • 复杂场景下 AI 抢话比例相对减少 40%

关键评测数据

相比豆包 App 此前使用的半双工对话框架:

  • 判停 MOS 分提高 8%
  • 对话流畅度 MOS 分提升 12%
  • 复杂声学干扰场景下,误回复率和误打断率降低 50%

在与行业主流产品及真实人人对话的横向对比中,Seeduplex 在判停和打断响应任务上均表现出明显优势,对话流畅度评价显著领先。

工程化落地

从实验室到亿级用户产品,工程化是绕不开的挑战。团队在工程架构上重点攻克了高并发下的卡顿与稳定性问题,确保模型在大流量环境下平稳运行。

这也是全双工语音交互技术首次在行业内实现大规模落地。

未来方向

团队透露了几个后续突破方向:

  • 深度优化多人对话、智能硬件等复杂交互场景
  • 引入模型主动能力,在倾听过程中附和用户、结合声学环境主动交互
  • 实现多模态融合,在语音、文本基础上引入视觉模态
  • 探索"边听边想""边听边搜",提升语音交互的思考和执行深度

来源: https://seed.bytedance.com/seeduplex

相关推荐