谷歌第八代 TPU 发布:训练推理芯片分离,Gemini Enterprise 升级全栈 Agent 平台

在 Google Cloud Next 大会上,谷歌发布第八代 TPU,首次采用训练(TPU 8t)和推理(TPU 8i)双芯片架构。同时 Gemini Enterprise 升级为端到端 Agent 平台,涵盖开发、编排和治理全流程。

TPU 第八代

TPU 8t:为训练而生

TPU 8t 针对大规模计算密集型训练负载设计,核心规格:

  • 单集群扩展至 9,600 芯片,2PB 共享高带宽内存
  • 片间带宽翻倍,计算性能每 pod 提升近 3 倍
  • 总算力达 121 ExaFlops
  • 存储访问速度提升 10 倍,支持 TPUDirect 直连数据传输
  • 搭配 Virgo 网络和 Pathways 软件,百万芯片近线性扩展

TPU 8i:为推理和 Agent 优化

TPU 8i 针对低延迟推理场景设计,推理性价比提升 80%,能效比提升 2 倍。

Agent 时代,模型需要持续推理、多步执行、自我反思循环。Agent 之间的交互会将微小的推理延迟成倍放大——一个 10 步 Agent 工作流中,单次推理延迟增加 50ms 就会累积到 500ms。专用推理芯片的意义在于从硬件层面消除这种累积。

Gemini Enterprise:从模型升级为 Agent 平台

Gemini Enterprise 升级为端到端 Agent 系统,包含三个核心组件:

Agent Platform(原 Vertex AI 进化版):统一模型、开发、调优服务,新增 Agent 身份标识、模拟测试和长期记忆功能。支持低代码 Agent Studio、Agent Development Kit(ADK)、A2A 和 MCP 协议。

Gemini Enterprise 应用:团队成员发现、创建、分享和运行 AI Agent 的统一界面。所有治理、安全和身份验证能力内置。

开放合作伙伴生态:允许在安全合规框架下调用 Oracle、Salesforce、ServiceNow 等第三方 Agent 插件。

Gemini Enterprise

行业信号

训练和推理芯片的分离是一个值得关注的趋势。此前 NVIDIA 的 H100/B200 系列、AMD MI300 等都采用统一架构同时承担训练和推理。谷歌率先做出拆分,说明大规模部署 Agent 后,推理的负载特征已经和训练足够不同,值得用独立芯片去优化。

💡 谷歌在 Google Cloud Next 上同时发布硬件(TPU 8)、平台(Gemini Enterprise)和协议(A2A + MCP),覆盖从芯片到应用的全栈。如果 NVIDIA 不在下一代产品中做类似的训练/推理拆分,在这一维度上可能要落后。

来源:Google Blog · Google Cloud Blog

相关推荐