智谱 GLM-5.1 高速版发布:400 tokens/s 输出速度刷新全球 API 上限

智谱今日发布 GLM-5.1-HighSpeed,输出速度达到 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。该模型由智谱 GLM 团队与 TileRT 团队联合打造,目前仅面向智谱 BigModel 开放平台部分企业客户定向开放。

GLM-5.1-HighSpeed 性能对比图

过去行业中存在一个惯性认知:"快"往往意味着"小",高速模型几乎总是轻量级模型。GLM-5.1 高速版的目标是打破这一惯例——在保持旗舰级能力的同时将延迟压到生产环境可用的水平。

三层系统级优化

GLM-5.1-HighSpeed 在推理引擎、调度系统与底层基础设施三个层面进行了协同优化:

推理引擎层:针对 GLM-5.1 的架构特点重写了核心推理路径,提升单卡吞吐能力。

调度系统层:通过动态批处理、请求合并和 KV 缓存调度优化,降低高并发场景下的尾延迟。

基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保 400 tokens/s 在生产环境中稳定可用。

TileRT 高性能推理引擎

TileRT 是此次高速版的底层技术支撑,其核心思路是抛弃 Runtime 层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

在单卡内,计算、异步 IO 与通信被拆解为 Tile 级微任务,整个推理过程只 Launch 一次 Engine Kernel。算子间的中间结果不再写回 Global Memory,而是经由 Register、Shared Memory 与 L2 Cache 直传,host 调度与跨算子同步被压进同一个常驻 kernel。

在多卡尺度上,TileRT 将 SM 内部的 Warp Specialization 思路外推到整张 8 卡 NVL 拓扑,不同 GPU rank 按计算密度与数据依赖被特化为不同 worker。

能力与适用场景

GLM-5.1-HighSpeed 支持 Function Call、JSON 结构化输出和 MCP 协议,适用场景包括:

  • Coding Agent 与多轮代码生成
  • 实时 UI 构建
  • 运营问答与实时客服
  • 语音助手
  • 商业决策支持

目前该模型面向智谱 MaaS 平台部分企业客户开放服务,暂不对个人用户开放。

来源:智谱 AI · IT之家

相关推荐