智谱GLM-5V-Turbo：首款原生多模态编程基础模型

4月2日，智谱AI（Z.ai）发布GLM-5V-Turbo，首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入，上下文窗口200K，最大输出128K tokens。

模型定位

GLM-5V-Turbo的定位很明确：一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力，而是从预训练阶段就做多模态融合，CogViT视觉编码器与MTP推理架构协同工作，用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。

官方将技术升级总结为四个层面：

原生多模态融合：预训练到后训练全程强化视觉-文本对齐，配合新的CogViT视觉编码器和推理友好的MTP架构，提升多模态理解与推理效率。

30+任务联合强化学习：RL阶段跨30+任务类型联合优化，覆盖STEM、定位、视频、GUI Agent和编程Agent，在感知、推理和Agent执行三个维度获得更稳健的提升。

Agent数据与任务构建：针对Agent数据稀缺和验证困难的痛点，构建了多层级、可控制、可验证的数据体系，并在预训练阶段注入Agent元能力，强化动作预测和执行。

扩展多模态工具链：新增画框、截图、读网页（含图片识别）等多模态工具，Agent从纯文本交互延伸到视觉交互，形成更完整的感知-规划-执行闭环。

GLM-5V-Turbo已经验证了几个典型场景：

设计稿→前端代码：输入设计稿或参考图片，模型理解布局、配色、组件层级和交互逻辑，直接生成可运行的前端项目。
GUI自主探索与复现：配合Claude Code等框架，自主浏览目标网站、梳理页面跳转、收集视觉素材，基于探索结果生成代码——从"截图复现"升级到"自主探索复现"。
代码调试：输入有Bug的页面截图，自动识别布局错位、组件重叠、颜色不匹配等渲染问题，定位前端问题并生成修复代码。
OpenClaw集成：理解网页布局、GUI元素和图表信息，处理需要感知、规划和执行协同的复杂实际任务。

一个值得注意的点：增加视觉能力没有以牺牲纯文本编程为代价。在CC-Bench-V2的后端、前端、仓库探索三项核心基准上，GLM-5V-Turbo保持了领先表现。同时在PinchBench、ClawEval、ZClawBench等Agent任务执行质量评测上也取得了不错成绩。

智谱还提供了官方Skills，覆盖图像描述、视觉定位、文档理解与写作、简历筛选、提示词生成等场景，这些技能已上线ClawHub。

GLM-5V-Turbo概念图

多模态编程示意