字节跳动发布 Seeduplex：全双工语音模型在豆包全面上线

4 月 9 日，字节跳动正式推出 Seeduplex——一款原生全双工端到端语音大模型，目前已全量上线豆包 App。

传统语音交互系统大多采用半双工范式：严格遵循"你讲我听、我讲你听"的轮流机制。这种模式在面对真实世界中复杂的声学环境和碎片化的交流习惯时，局限性明显。

Seeduplex 的核心突破在于实现了"边听边说"。模型在持续接收用户语音的同时，可以同步输出回应，不再需要等待用户说完才开始处理。这一能力基于海量语音数据预训练与强化学习（RL），通过语音语义联合建模，将对话节奏控制、强抗干扰、精准轮次切换与指向性理解等能力融入模型训练体系。

Seeduplex 产品图

精准抗干扰

现实中的语音交互场景充满干扰：背景噪音、旁人对话、导航播报等。Seeduplex 能够持续接收并理解用户侧的全局声学环境，精准判断哪些声音是针对模型的指令，哪些是干扰。

具体场景包括：

Seeduplex 抗干扰场景演示

自然对话的关键在于准确判断用户何时在思考、何时已说完。Seeduplex 在对话节奏把控上表现出更强的灵活性：

相比豆包 App 此前使用的半双工对话框架：

在与行业主流产品及真实人人对话的横向对比中，Seeduplex 在判停和打断响应任务上均表现出明显优势，对话流畅度评价显著领先。

从实验室到亿级用户产品，工程化是绕不开的挑战。团队在工程架构上重点攻克了高并发下的卡顿与稳定性问题，确保模型在大流量环境下平稳运行。

这也是全双工语音交互技术首次在行业内实现大规模落地。

团队透露了几个后续突破方向：