百度开源 8B 文生图模型 ERNIE-Image:文字渲染达 SOTA,消费级显卡即可运行

2026 年 4 月 15 日,百度文心大模型团队正式宣布开源 ERNIE-Image——一款 8B 参数的文生图(Text-to-Image)模型。该模型在文字渲染能力上达到了开源 SOTA 水平,仅需 24GB 消费级显卡即可运行,采用 Apache 2.0 许可证,对开发者和创作者非常友好。

模型架构

ERNIE-Image 采用单流 Diffusion Transformer(DiT)架构,并配备了一个轻量级的 Prompt Enhancer 模块,用于增强用户输入的提示词理解能力。整个模型仅包含 8B 参数,结构简洁高效。

在推理资源方面,ERNIE-Image 仅需 24GB 显存的消费级 GPU(如 RTX 4090)即可运行,大幅降低了文生图模型的使用门槛。

性能表现

ERNIE-Image 在多项主流文生图评测基准上取得了开源 SOTA 的成绩:

  • GenEval
  • OneIG(中文 + 英文)
  • LongText-Bench

其中最突出的能力是文字渲染(Text Rendering):在开源模型中排名第一,已经可以与 NanoBanana 等商业模型处于同一梯队。尤其在 CJK(中文、英文、日文、韩文)文字渲染方面表现优异。

核心优势

ERNIE-Image 的核心亮点包括:

  1. 指令遵循:精准理解复杂提示词,生成符合预期的图像
  2. 文字渲染:支持中英日韩多语种文字准确生成,开源最强
  3. 多主体关系:正确处理画面中多个对象之间的空间和语义关系
  4. 结构化布局:适用于海报、漫画分镜、学术论文配图等需要精确排版的场景

风格与用途

模型覆盖丰富的图像风格,包括:

  • 写实摄影
  • 动漫插画
  • 电影画面
  • 分镜故事板
  • 复古老照片
  • 更多风格持续扩展中

典型应用场景涵盖海报设计、漫画创作、多面板布局、学术图表生成等。

生态支持

ERNIE-Image 已提供完善的工具链支持:

  • Hugging Face 模型:baidu/ERNIE-Image 和 baidu/ERNIE-Image-Turbo
  • ComfyUI 工作流:已适配,可直接在 ComfyUI 中使用
  • GGUF 量化:通过 Unsloth 提供,进一步降低显存需求

社区与活动

在正式开源之前,已有超过 30 家企业和社区参与了 ERNIE-Image 的内部测试,收集了大量真实场景反馈。

百度同时宣布启动「文心创作周」系列活动,首期主题为动漫创作,鼓励社区用户使用 ERNIE-Image 进行创作并分享作品。

许可证

ERNIE-Image 采用 Apache 2.0 许可证开源,允许商业使用和自由修改,对企业和个人开发者都非常友好。


模型地址:https://huggingface.co/baidu/ERNIE-Image