标签: 编程模型 清除筛选
智谱GLM-5V-Turbo:首款原生多模态编程基础模型
4月2日,智谱AI(Z.ai)发布GLM-5V-Turbo,首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入,上下文窗口200K,最大输出128K tokens。
模型定位GLM-5V-Turbo的定位很明确:一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力,而是从预训练阶段就做多模态融合,CogViT视觉编码器与MTP推理架构协同工作,用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。
四层系统升级官方将技术升级总结为四个层面:
原生多模态融合:预训练到后训练全程强化视觉-文本对齐,配合新的CogViT视觉编
