标签: 编程模型 清除筛选
    智谱GLM-5V-Turbo:首款原生多模态编程基础模型
    智谱GLM-5V-Turbo:首款原生多模态编程基础模型

    4月2日,智谱AI(Z.ai)发布GLM-5V-Turbo,首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入,上下文窗口200K,最大输出128K tokens。

    模型定位

    GLM-5V-Turbo的定位很明确:一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力,而是从预训练阶段就做多模态融合,CogViT视觉编码器与MTP推理架构协同工作,用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。

    四层系统升级

    官方将技术升级总结为四个层面:

    原生多模态融合:预训练到后训练全程强化视觉-文本对齐,配合新的CogViT视觉编