Google 发布 Gemini 3.1 Flash Live:实时语音对话模型换代

3/26/2026AIGoogleGemini

Google 今天发布了 Gemini 3.1 Flash Live,这是 Gemini 系列中迄今音质最高的实时音频和语音模型,主打更低延迟和更自然的对话节奏,面向开发者、企业和普通用户三个方向落地。

Google 发布 Gemini 3.1 Flash Live:实时语音对话模型换代

模型能力提升

Gemini 3.1 Flash Live 在多个基准测试中取得领先成绩:

  • ComplexFuncBench Audio:90.8%,该基准测试覆盖多步函数调用和多种约束条件
  • Scale AI Audio MultiChallenge:开启 thinking 后 36.1%,重点测试真实音频场景中的复杂指令遵循和长程推理能力

在声学层面,模型对音高、语速等细节的识别精度超过上一代 2.5 Flash Native Audio,同时能更好地识别用户的情绪表达(如困惑或不满),并动态调整回应方式。嘈杂环境下的语音处理能力也明显加强。

产品落地

3.1 Flash Live 已接入以下产品:

  • Gemini Live(Android / iOS):响应更快、停顿更少,连续对话的上下文保持时间为此前的 2 倍
  • Search Live:随本次发布扩展到 200 多个国家和地区,用户可通过语音和 Google Lens 进行实时多模态搜索对话
  • Gemini Enterprise for Customer Experience:面向企业客服场景
  • Google AI Studio:开发者可通过 Gemini Live API 以预览版接入

Verizon、The Home Depot、LiveKit 等企业已在测试中使用该模型,反馈集中在对话自然度的提升。

安全

3.1 Flash Live 生成的所有音频均嵌入 SynthID 水印,用于可靠检测 AI 生成内容,防止误导性传播。

相关推荐