DeepL 进军语音翻译:级联架构的优与劣

DeepL 于 4 月 16 日发布了语音实时翻译套件 DeepL Voice,核心业务从文本翻译拓展至实时语音领域。

产品形态

DeepL Voice 目前覆盖三种使用方式:

  • 会议集成:支持 Zoom 和 Microsoft Teams,听众可实时收听翻译音频或查看屏幕字幕
  • 移动 / Web 对话:线上或面对面场景,支持通过 QR 码快速加入群聊翻译(培训、工坊等)
  • 企业 API:开放 API 接入呼叫中心等自定义场景

系统还具备学习行业术语及专有名词的能力。目前产品处于早期访问阶段,仅开放企业候补名单。

DeepL Voice 产品界面

技术架构:级联方案

DeepL 表示掌控完整的语音到语音技术栈,但当前系统采用的是级联架构:语音 → 文本 → 翻译 → 文本 → 语音

CEO Jarek Kutylowski 坦承核心挑战在于平衡延迟与准确度。级联方案的优势在于 DeepL 多年文本翻译积累的语感质量,但代价是延迟。未来计划开发端到端的直接语音翻译模型,跳过文本中间步骤。

级联架构在翻译质量上有优势——每一步都可以针对性优化,但端到端模型的延迟天花板更低。两条路线的收敛速度,将直接决定语音翻译赛道的竞争格局。

竞对格局

语音翻译赛道已经相当拥挤:

  • Sanas:去年拿到 Quadrille Capital 和 Teleperformance 的 6500 万美元融资,主攻呼叫中心场景,用 AI 实时修改客服口音
  • Palabra:获 Reddit 联合创始人 Alexis Ohanian 的 776 基金投资,做保留说话人原声的实时语音翻译,定位与 DeepL Voice 最接近
  • Camb.AI:总部在迪拜,面向媒体娱乐行业做视频内容的规模化配音和本地化

企业的真实需求

Kutylowski 提到 AI 正在重塑客服行业形态。翻译层的价值在于帮助企业覆盖语言能力不足的市场——多语种客服招聘成本高、供给稀缺,实时语音翻译可以降低这个门槛。

对企业客户而言,延迟容忍度取决于场景:客服通话允许 1-2 秒延迟,但同声传译级别的会议场景对延迟要求更高。DeepL 的级联方案在前者够用,后者需要端到端模型。

来源:TechCrunch

相关推荐