谷歌第八代 TPU 发布：训练推理芯片分离，Gemini Enterprise 升级全栈 Agent 平台

在 Google Cloud Next 大会上，谷歌发布第八代 TPU，首次采用训练（TPU 8t）和推理（TPU 8i）双芯片架构。同时 Gemini Enterprise 升级为端到端 Agent 平台，涵盖开发、编排和治理全流程。

TPU 第八代

TPU 8t：为训练而生

TPU 8t 针对大规模计算密集型训练负载设计，核心规格：

TPU 8i 针对低延迟推理场景设计，推理性价比提升 80%，能效比提升 2 倍。

Agent 时代，模型需要持续推理、多步执行、自我反思循环。Agent 之间的交互会将微小的推理延迟成倍放大——一个 10 步 Agent 工作流中，单次推理延迟增加 50ms 就会累积到 500ms。专用推理芯片的意义在于从硬件层面消除这种累积。

Gemini Enterprise 升级为端到端 Agent 系统，包含三个核心组件：

Agent Platform（原 Vertex AI 进化版）：统一模型、开发、调优服务，新增 Agent 身份标识、模拟测试和长期记忆功能。支持低代码 Agent Studio、Agent Development Kit（ADK）、A2A 和 MCP 协议。

Gemini Enterprise 应用：团队成员发现、创建、分享和运行 AI Agent 的统一界面。所有治理、安全和身份验证能力内置。

开放合作伙伴生态：允许在安全合规框架下调用 Oracle、Salesforce、ServiceNow 等第三方 Agent 插件。

Gemini Enterprise

训练和推理芯片的分离是一个值得关注的趋势。此前 NVIDIA 的 H100/B200 系列、AMD MI300 等都采用统一架构同时承担训练和推理。谷歌率先做出拆分，说明大规模部署 Agent 后，推理的负载特征已经和训练足够不同，值得用独立芯片去优化。

💡 谷歌在 Google Cloud Next 上同时发布硬件（TPU 8）、平台（Gemini Enterprise）和协议（A2A + MCP），覆盖从芯片到应用的全栈。如果 NVIDIA 不在下一代产品中做类似的训练/推理拆分，在这一维度上可能要落后。

来源：Google Blog · Google Cloud Blog