字节跳动开源 Lance:3B 参数统一图像视频理解生成与编辑

字节跳动发布 Lance,一个仅 3B 激活参数的轻量级原生统一多模态模型,在单一框架下同时支持图像理解、视频理解、图像生成、视频生成和跨模态编辑五种任务。模型使用 Apache 2.0 许可,权重已在 Hugging Face 开放。

Lance 模型概览

Lance 架构设计

架构设计:共享上下文 + 双流专家

Lance 采用共享交织多模态序列(shared interleaved multimodal sequence)作为统一上下文表示,使文本、图像和视频在同一个序列空间中交互学习。同时引入双流混合专家架构(dual-stream MoE),将语义理解和视觉生成的能力路径解耦:

  • 理解流:基于 Qwen2.5-VL 编码器,负责视觉问答、图像/视频描述等语义任务
  • 生成流:基于 Wan2.2 编码器,负责文本生成图像/视频、跨模态编辑等合成任务

为解决不同模态视觉 token 在统一序列中的位置干扰问题,Lance 提出模态感知位置编码(MaPE,Modality-aware Rotary Positional Encoding),根据 token 的模态类型(语义 ViT token、干净 VAE latent、带噪 VAE latent 等)调整位置编码,减少跨任务干扰。

Lance 双流专家架构

训练方案

Lance 从零训练(除 ViT 和 VAE 编码器外,Transformer backbone 完全从头训练),训练预算为 128 张 A100 GPU。采用分阶段多任务训练范式,将理解、生成和编辑任务统一到同一任务框架中,配合能力导向的目标函数和自适应数据调度策略,逐步增强语义理解和视觉合成能力。

基准测试表现

Lance 方法概览

在多个基准上,Lance 以 3B 参数量超越或追平更大规模的统一模型:

  • GenEval(图像生成):与 7B/13B 模型持平或领先,在关系定位和空间一致性维度表现突出
  • DPG-Bench(图像生成):在关系类提示词理解上达到 93.38 分
  • GEdit-Bench(图像编辑):统一模型中平均得分最佳
  • VBench(视频生成):总分 85.11,为统一模型最高,在视觉质量、色彩一致性、场景理解等维度全面领先
  • MVBench(视频理解):统一模型中平均得分最佳

Benchmark 对比

适用任务

Lance 提供统一的命令行接口,支持六种任务:

  • 文本生成图像(t2i)
  • 文本生成视频(t2v),最多支持 121 帧
  • 图像编辑(image_edit)
  • 视频编辑(video_edit)
  • 图像理解(x2t_image)
  • 视频理解(x2t_video)

单 GPU 即可运行推理,推荐 30 步去噪,CFG scale 4.0。

下载与试用

模型权重、推理脚本和论文链接:

来源:字节跳动开源 · GitHub · arXiv

相关推荐