字节跳动 Seed3D 2.0：从图像到可仿真 3D 内容的两阶段生成

字节跳动 Seed 团队正式发布新一代 3D 生成大模型 Seed3D 2.0，核心目标是将 3D 内容生成从演示级推进到生产可用。技术报告已公开，API 已上线火山引擎。

几何生成：两阶段 DiT 解耦结构

Seed3D 1.0 需要同时完成"整体结构"和"精细结构"的生成，容易在锐利边缘和精细结构上出现"软化"现象。Seed3D 2.0 引入 Coarse-to-Fine 两阶段生成策略，将两者解耦优化：

Seed3D 2.0 两阶段 DiT 几何生成架构

阶段一：使用更大参数规模的 DiT，基于输入图像生成粗粒度几何结构，建立整体拓扑关系和空间布局。

阶段二：以阶段一输出为几何锚点，专注于锐利边缘、精细表面等细节恢复。引入两种关键先验：

VAE 侧也做了同步升级，更少的 token 即可获得更高的重建精度，并支持根据内容动态分配注意力。

在 60 位具有 3D 建模经验的人类打分员、约 200 个测试用例的两两盲评中，Seed3D 2.0 在几何形状生成维度相比所有主流模型呈现更高的偏好率。

Seed3D 1.0 采用级联式模型进行 RGB 生成和 PBR 分解，中间步骤误差会逐级累积。Seed3D 2.0 改为统一的 PBR 生成模型，保持 MMDiT 双流架构，通过模态特定投影层在共享 DiT 层中联合建模完整 PBR 贴图。

两项关键创新：

1. MoE 架构提升高分辨率材质精度 通过稀疏专家路由，在扩大参数量和分辨率的同时控制推理计算量，解决了材质分解中细节丢失的问题，金属-粗糙度边界更加精确。

2. VLM 先验增强材质分解稳定性 从 RGB 图像逆向推导 PBR 材质是行业难题——相同外观可能由不同材质与光照组合产生。引入 VLM 对输入图片的材质类型和物理属性进行描述，作为额外控制信号注入 DiT，有效减少了色偏和金属性误判。

在纹理生成人类评测中，Seed3D 2.0 面对主流模型的偏好率超过 69%。

Seed3D 2.0 将能力从单一物体生成扩展到部件级操作和场景组合：

采用"先理解，再生成"范式。通过训练的 Seed3D-PartSeg 3D 理解模块对完整 3D 网格进行表面分割，再由 Seed3D-PartDiT 以全局 3D 形状、分割点云和图像为输入，补全每个部件的完整形状。

一把椅子会被自动拆分为座椅、靠背和底座；机器人按四肢等部位精细拆解。

在部件分割基础上，利用 VLM 将部件拆分为运动学组件并识别关节类型（如"可旋转部件"或"固定结构"），结合几何先验估计关节轴位置。引入图生视频模型生成运动参考以优化关节运动范围。

最终输出带有完整关节信息、以 URDF 等标准格式呈现的 3D 内容，兼容 Isaac Sim 等主流物理仿真引擎。

对于文本输入，利用微调过的 LLM 进行空间关系推理和布局生成；对于多视角图片或视频输入，利用深度估计、实例分割和遮挡修复等能力推理场景空间布局。最终逐个生成 3D 内容并按空间关系组合，构建完整场景。

Seed3D 2.0 的进步意义不仅在于指标提升，更在于它瞄准了一个关键问题：3D 生成如何从"看起来像"变成"用得上"。

几何精度的提升（锐利边缘、薄壁结构、复杂拓扑）和 PBR 材质的统一生成（任意光照下物理一致的视觉效果）解决了"质量"问题；部件级生成、关节化建模和 URDF 输出解决了"下游适配"问题——这意味着生成的 3D 内容可以直接导入仿真环境进行物理交互测试，不再只是一个好看的三维模型。

对于具身智能和机器人领域，这意味着从图像到可仿真物体的 pipeline 大幅缩短。

官方也坦诚了当前局限：

体验入口：火山方舟体验中心 → 视觉模型 → 3D 生成 → Doubao-Seed3D-2.0