DeepL 进军语音翻译：级联架构的优与劣

DeepL 于 4 月 16 日发布了语音实时翻译套件 DeepL Voice，核心业务从文本翻译拓展至实时语音领域。

产品形态

DeepL Voice 目前覆盖三种使用方式：

系统还具备学习行业术语及专有名词的能力。目前产品处于早期访问阶段，仅开放企业候补名单。

DeepL Voice 产品界面

DeepL 表示掌控完整的语音到语音技术栈，但当前系统采用的是级联架构：语音 → 文本 → 翻译 → 文本 → 语音。

CEO Jarek Kutylowski 坦承核心挑战在于平衡延迟与准确度。级联方案的优势在于 DeepL 多年文本翻译积累的语感质量，但代价是延迟。未来计划开发端到端的直接语音翻译模型，跳过文本中间步骤。

级联架构在翻译质量上有优势——每一步都可以针对性优化，但端到端模型的延迟天花板更低。两条路线的收敛速度，将直接决定语音翻译赛道的竞争格局。

语音翻译赛道已经相当拥挤：

Sanas：去年拿到 Quadrille Capital 和 Teleperformance 的 6500 万美元融资，主攻呼叫中心场景，用 AI 实时修改客服口音
Palabra：获 Reddit 联合创始人 Alexis Ohanian 的 776 基金投资，做保留说话人原声的实时语音翻译，定位与 DeepL Voice 最接近
Camb.AI：总部在迪拜，面向媒体娱乐行业做视频内容的规模化配音和本地化

Kutylowski 提到 AI 正在重塑客服行业形态。翻译层的价值在于帮助企业覆盖语言能力不足的市场——多语种客服招聘成本高、供给稀缺，实时语音翻译可以降低这个门槛。

对企业客户而言，延迟容忍度取决于场景：客服通话允许 1-2 秒延迟，但同声传译级别的会议场景对延迟要求更高。DeepL 的级联方案在前者够用，后者需要端到端模型。

来源：TechCrunch