字节跳动开源 Lance：3B 参数统一图像视频理解生成与编辑

5/22/2026字节跳动开源 AI 多模态

字节跳动发布 Lance，一个仅 3B 激活参数的轻量级原生统一多模态模型，在单一框架下同时支持图像理解、视频理解、图像生成、视频生成和跨模态编辑五种任务。模型使用 Apache 2.0 许可，权重已在 Hugging Face 开放。

Lance 模型概览

Lance 架构设计

架构设计：共享上下文 + 双流专家

Lance 采用共享交织多模态序列（shared interleaved multimodal sequence）作为统一上下文表示，使文本、图像和视频在同一个序列空间中交互学习。同时引入双流混合专家架构（dual-stream MoE），将语义理解和视觉生成的能力路径解耦：

理解流：基于 Qwen2.5-VL 编码器，负责视觉问答、图像/视频描述等语义任务
生成流：基于 Wan2.2 编码器，负责文本生成图像/视频、跨模态编辑等合成任务

为解决不同模态视觉 token 在统一序列中的位置干扰问题，Lance 提出模态感知位置编码（MaPE，Modality-aware Rotary Positional Encoding），根据 token 的模态类型（语义 ViT token、干净 VAE latent、带噪 VAE latent 等）调整位置编码，减少跨任务干扰。

Lance 双流专家架构

训练方案

Lance 从零训练（除 ViT 和 VAE 编码器外，Transformer backbone 完全从头训练），训练预算为 128 张 A100 GPU。采用分阶段多任务训练范式，将理解、生成和编辑任务统一到同一任务框架中，配合能力导向的目标函数和自适应数据调度策略，逐步增强语义理解和视觉合成能力。