百度开源 8B 文生图模型 ERNIE-Image:文字渲染达 SOTA,消费级显卡即可运行
4/15/2026开源百度文生图ERNIE-ImageDiT
2026 年 4 月 15 日,百度文心大模型团队正式宣布开源 ERNIE-Image——一款 8B 参数的文生图(Text-to-Image)模型。该模型在文字渲染能力上达到了开源 SOTA 水平,仅需 24GB 消费级显卡即可运行,采用 Apache 2.0 许可证,对开发者和创作者非常友好。
模型架构
ERNIE-Image 采用单流 Diffusion Transformer(DiT)架构,并配备了一个轻量级的 Prompt Enhancer 模块,用于增强用户输入的提示词理解能力。整个模型仅包含 8B 参数,结构简洁高效。
在推理资源方面,ERNIE-Image 仅需 24GB 显存的消费级 GPU(如 RTX 4090)即可运行,大幅降低了文生图模型的使用门槛。
性能表现
ERNIE-Image 在多项主流文生图评测基准上取得了开源 SOTA 的成绩:
- GenEval
- OneIG(中文 + 英文)
- LongText-Bench
其中最突出的能力是文字渲染(Text Rendering):在开源模型中排名第一,已经可以与 NanoBanana 等商业模型处于同一梯队。尤其在 CJK(中文、英文、日文、韩文)文字渲染方面表现优异。
核心优势
ERNIE-Image 的核心亮点包括:
- 指令遵循:精准理解复杂提示词,生成符合预期的图像
- 文字渲染:支持中英日韩多语种文字准确生成,开源最强
- 多主体关系:正确处理画面中多个对象之间的空间和语义关系
- 结构化布局:适用于海报、漫画分镜、学术论文配图等需要精确排版的场景
风格与用途
模型覆盖丰富的图像风格,包括:
- 写实摄影
- 动漫插画
- 电影画面
- 分镜故事板
- 复古老照片
- 更多风格持续扩展中
典型应用场景涵盖海报设计、漫画创作、多面板布局、学术图表生成等。
生态支持
ERNIE-Image 已提供完善的工具链支持:
- Hugging Face 模型:baidu/ERNIE-Image 和 baidu/ERNIE-Image-Turbo
- ComfyUI 工作流:已适配,可直接在 ComfyUI 中使用
- GGUF 量化:通过 Unsloth 提供,进一步降低显存需求
社区与活动
在正式开源之前,已有超过 30 家企业和社区参与了 ERNIE-Image 的内部测试,收集了大量真实场景反馈。
百度同时宣布启动「文心创作周」系列活动,首期主题为动漫创作,鼓励社区用户使用 ERNIE-Image 进行创作并分享作品。
许可证
ERNIE-Image 采用 Apache 2.0 许可证开源,允许商业使用和自由修改,对企业和个人开发者都非常友好。
相关推荐
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- GrapheneOS 警告起诉:安卓统一认证标准背后的生态之争3/18/2026
- 通义开源影视级配音大模型 Fun-CineForge,关键变化是把“时间”也做进了模型3/16/2026
- ImageGlass 10 Beta 1 发布:十五年来最大重构,首次支持 macOS 和 Linux3/15/2026
- 有人在 GitHub 上开源了一个「前任 Skill」3/31/2026
- 法国政府承诺以 Linux 取代 Windows,覆盖 250 万公务员桌面4/10/2026
- 企业微信开源 CLI:AI Agent 可以直接操作企业微信了3/30/2026
- PaddleOCR 超越 Tesseract,成为 GitHub 星标最高的 OCR 项目3/30/2026
- GitHub Issues 遭遇大规模垃圾广告攻击,开源社区成黑产引流池3/29/2026
- Linux 内核即将告别 Intel 486,37 年的兼容走到终点4/7/2026
- 英伟达发布全球首个开源量子 AI 模型家族 Ising,用 AI 打造量子计算机的「操作系统」4/15/2026
- 开源项目分享:SwiftMTP——macOS 平台的安卓文件传输工具4/10/2026
- 武汉萝卜快跑夜间大面积故障,多名乘客被困高架4/1/2026
- Vercel 确认安全事件,暗网卖家声称掌握核心访问权限4/19/2026
- Cherry Studio 被指违规遥测,禁用分析功能后仍连接服务器4/19/2026
- Kimi K2.6 发布:开源模型在编码基准上全面追平闭源第一梯队4/20/2026