编程模型

标签: 编程模型清除筛选

4月2日，智谱AI（Z.ai）发布GLM-5V-Turbo，首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入，上下文窗口200K，最大输出128K tokens。

模型定位

GLM-5V-Turbo的定位很明确：一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力，而是从预训练阶段就做多模态融合，CogViT视觉编码器与MTP推理架构协同工作，用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。

四层系统升级

官方将技术升级总结为四个层面：

原生多模态融合：预训练到后训练全程强化视觉-文本对齐，配合新的CogViT视觉编