百度发布文心大模型5.1 预训练成本仅为业界6%

百度发布文心大模型 5.1,已在千帆模型广场、文心一言官网同步上线。

核心数据

  • 参数量压缩至文心 5.0 的约 1/3,激活参数约 1/2
  • 预训练成本仅为业界同规模模型的约 6%
  • LMArena 搜索榜 1223 分,全球第四、国内第一
  • AIME26(使用工具)得分 99.6,仅次于 Gemini-3.1 Pro
  • Agent 能力超越 DeepSeek-V4-Pro,接近领先闭源模型
  • 创意写作能力接近 Gemini 3.1 Pro

文心5.1 基准测试对比

技术特性

多维弹性预训练

文心 5.1 基于文心 5.0 训练,采用 Once-for-All 弹性训练框架,在单次预训练中通过动态采样同时优化大量参数各异的子模型。三个维度的弹性压缩与扩展:

  • 弹性深度:训练时随机跳过部分 Transformer 层,不同深度子模型共享权重
  • 弹性宽度:弹性调控 MoE 层专家池规模,随机动态屏蔽部分专家提升利用效率
  • 弹性稀疏度:可变 Top-k 路由机制,灵活调整激活专家数量

分离式全异步强化学习

基于飞桨构建的分离式 RL 基础设施,三个方向优化:

  • 分离式全异步架构:训练推理完全解耦,解决资源争抢和流水线阻塞
  • 自适应训练策略:针对训推偏差问题的动态调节机制
  • 长尾效应优化:确保模型在复杂长尾任务上的稳定性

LMArena 搜索榜排名

如何体验

来源:百度文心公众号

相关推荐