智谱 GLM-5.1 高速版发布：400 tokens/s 输出速度刷新全球 API 上限

5/22/2026智谱 AI 大模型

智谱今日发布 GLM-5.1-HighSpeed，输出速度达到 400 tokens/s，刷新当前全球大模型厂商 API 的速度上限。该模型由智谱 GLM 团队与 TileRT 团队联合打造，目前仅面向智谱 BigModel 开放平台部分企业客户定向开放。

GLM-5.1-HighSpeed 性能对比图

过去行业中存在一个惯性认知："快"往往意味着"小"，高速模型几乎总是轻量级模型。GLM-5.1 高速版的目标是打破这一惯例——在保持旗舰级能力的同时将延迟压到生产环境可用的水平。

三层系统级优化

GLM-5.1-HighSpeed 在推理引擎、调度系统与底层基础设施三个层面进行了协同优化：

推理引擎层：针对 GLM-5.1 的架构特点重写了核心推理路径，提升单卡吞吐能力。

调度系统层：通过动态批处理、请求合并和 KV 缓存调度优化，降低高并发场景下的尾延迟。

基础设施层：围绕推理集群部署、网络链路、负载均衡进行协同优化，确保 400 tokens/s 在生产环境中稳定可用。

TileRT 高性能推理引擎

TileRT 是此次高速版的底层技术支撑，其核心思路是抛弃 Runtime 层的动态调度，在编译期（AOT）将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

在单卡内，计算、异步 IO 与通信被拆解为 Tile 级微任务，整个推理过程只 Launch 一次 Engine Kernel。算子间的中间结果不再写回 Global Memory，而是经由 Register、Shared Memory 与 L2 Cache 直传，host 调度与跨算子同步被压进同一个常驻 kernel。

在多卡尺度上，TileRT 将 SM 内部的 Warp Specialization 思路外推到整张 8 卡 NVL 拓扑，不同 GPU rank 按计算密度与数据依赖被特化为不同 worker。

能力与适用场景

GLM-5.1-HighSpeed 支持 Function Call、JSON 结构化输出和 MCP 协议，适用场景包括：

Coding Agent 与多轮代码生成
实时 UI 构建
运营问答与实时客服
语音助手
商业决策支持

目前该模型面向智谱 MaaS 平台部分企业客户开放服务，暂不对个人用户开放。

来源：智谱 AI · IT之家