智谱GLM-5V-Turbo:首款原生多模态编程基础模型

4月2日,智谱AI(Z.ai)发布GLM-5V-Turbo,首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入,上下文窗口200K,最大输出128K tokens。

模型定位

GLM-5V-Turbo的定位很明确:一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力,而是从预训练阶段就做多模态融合,CogViT视觉编码器与MTP推理架构协同工作,用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。

四层系统升级

官方将技术升级总结为四个层面:

原生多模态融合:预训练到后训练全程强化视觉-文本对齐,配合新的CogViT视觉编码器和推理友好的MTP架构,提升多模态理解与推理效率。

30+任务联合强化学习:RL阶段跨30+任务类型联合优化,覆盖STEM、定位、视频、GUI Agent和编程Agent,在感知、推理和Agent执行三个维度获得更稳健的提升。

Agent数据与任务构建:针对Agent数据稀缺和验证困难的痛点,构建了多层级、可控制、可验证的数据体系,并在预训练阶段注入Agent元能力,强化动作预测和执行。

扩展多模态工具链:新增画框、截图、读网页(含图片识别)等多模态工具,Agent从纯文本交互延伸到视觉交互,形成更完整的感知-规划-执行闭环。

实际应用场景

GLM-5V-Turbo已经验证了几个典型场景:

  • 设计稿→前端代码:输入设计稿或参考图片,模型理解布局、配色、组件层级和交互逻辑,直接生成可运行的前端项目。
  • GUI自主探索与复现:配合Claude Code等框架,自主浏览目标网站、梳理页面跳转、收集视觉素材,基于探索结果生成代码——从"截图复现"升级到"自主探索复现"。
  • 代码调试:输入有Bug的页面截图,自动识别布局错位、组件重叠、颜色不匹配等渲染问题,定位前端问题并生成修复代码。
  • OpenClaw集成:理解网页布局、GUI元素和图表信息,处理需要感知、规划和执行协同的复杂实际任务。

纯文本编程能力

一个值得注意的点:增加视觉能力没有以牺牲纯文本编程为代价。在CC-Bench-V2的后端、前端、仓库探索三项核心基准上,GLM-5V-Turbo保持了领先表现。同时在PinchBench、ClawEval、ZClawBench等Agent任务执行质量评测上也取得了不错成绩。

官方技能生态

智谱还提供了官方Skills,覆盖图像描述、视觉定位、文档理解与写作、简历筛选、提示词生成等场景,这些技能已上线ClawHub。

GLM-5V-Turbo概念图

多模态编程示意

来源:智谱AI开放平台

相关推荐