腾讯混元 Hy3 preview 开源:295B MoE 模型重建后的首份答卷
腾讯混元正式发布并开源 Hy3 preview,这是混元团队今年 2 月重建预训练和强化学习基础设施后训练的第一个模型,也是迄今最智能的混元模型。

模型规格
| 项目 | 参数 |
|---|---|
| 架构 | 混合专家模型(MoE),快慢思考融合 |
| 总参数 | 295B |
| 激活参数 | 21B |
| 上下文长度 | 256K |
| 协议 | 开源 |
设计理念:三个原则
腾讯在重建混元时确立了三个核心原则:
1. 能力体系化——不推崇"偏科"。即使代码智能体这种单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。
2. 评测真实性——主动跳出易被"刷榜"的公开榜单,通过自建题目、最新考试、人工评测、产品众测等方式评估"真实战斗力"。
3. 性价比追求——深度协同模型架构和推理框架设计,大幅降低任务成本。
核心能力提升
复杂推理
Hy3 preview 在 Frontier Science Olympiad、IMO Answer Bench 等高难度理工科推理任务中表现突出。同时在清华大学求真书院数学博资考(26 春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩。
代码与智能体(提升最显著)
在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等搜索智能体基准中取得了强竞争力。在 ClawEval 和 WildClawBench 等面向真实智能体场景的评测中表现突出。
腾讯还构建了内部评测集:
- Hy-Backend:后端工程任务集
- Hy-Vibe Bench:贴近真实用户开发交互
- Hy-SWE Max:高难度软件工程开发任务
上下文学习与指令遵循
腾讯创新性地提出了 CL-bench 和 CL-bench-Life 来评估模型的上下文学习能力,Hy3 preview 在此维度有显著提升。
自然对话与用户理解
与元宝团队深度合作,使用 URM(User-Feedback RM)对用户真实反馈建模,结合 RLHF 进行细粒度优化。事实性错误显著降低,模糊意图理解更精准,回复风格更具共情。
推理性能
得益于模型架构和推理框架的深度协同,Hy3 preview 的推理性能大幅优化:
- 首 token 延迟降低 54%(CodeBuddy/WorkBuddy 产品数据)
- 端到端时长降低 47%
- 成功率提升至 99.99%+
- 已稳定驱动最长 495 步的复杂 Agent 工作流
产品部署
Hy3 preview 已在腾讯多个产品上线:
- 元宝:用户活跃度较之前模型大幅增长
- CodeBuddy / WorkBuddy:推理性能大幅优化
- ima:知识库问答和通用问答场景表现优异
- QQ:小Q助手综合体验跃升,在 PinchBench QQ 智能体场景中取得突出效果
- 腾讯文档:AI PPT 生成成功率提升 20%,评测得分提升 10%,耗时缩短 20%
- 和平精英:AI NPC 场景中表现出色的拟人化扮演能力
- 微信公众号:AI 分身和 AI 客服场景中,模糊提问和多轮对话能力更成熟
同时支持 OpenClaw、OpenCode、KiloCode 等开源智能体产品。
开源与定价
模型权重和代码已在以下平台开源:
支持 vLLM、SGLang 等主流推理框架。
腾讯云 API 个人版定价最低 28 元/月。
评价
Hy3 preview 最值得关注的不只是参数规模或 benchmark 数字,而是腾讯在发布策略上的三个转变:
第一,重建而非修补。今年 2 月推倒重建预训练和 RL 基础设施,这在国内大厂中相当少见——大多数团队选择在现有框架上迭代。重建意味着承认之前的技术路线有根本性问题,也需要更大的决心和更长的投入周期。
第二,强调真实评测而非刷榜。主动提出 CL-bench 等自有评测体系,构建 Hy-Backend、Hy-Vibe Bench、Hy-SWE Max 等内部评测集。这反映了对公开 benchmark 污染问题的清醒认知。
第三,Agent 定位明确。从产品部署(CodeBuddy 495 步工作流、OpenClaw 兼容)到评测体系(ClawEval、WildClawBench),Hy3 preview 的核心战场明显在 Agent 而非纯对话。这与行业趋势一致——模型的价值越来越体现在能否完成复杂的多步骤任务。
不过需要注意,官方也坦言"仍存在一些已知问题",且这是 preview 版本。Hy3 正式版的效果才是最终判断标准。
- 腾讯撤销 AI Lab,密集引入字节 Seed 骨干推进混元升级3/25/2026
- Google 发布 Gemma 4 开放模型:4 种规格覆盖手机到工作站4/2/2026
- 腾讯开始内测“AI问股”,微信生态补证券服务入口3/23/2026
- 阿里腾讯同日发布3D世界模型:从生成视频到造世界4/16/2026
- DeepSeek发布DeepGEMM重大更新:MegaMoE融合算子与FP4精度支持4/16/2026
- Cursor 的 warp decode:翻转 MoE 推理并行轴,Blackwell 小批量吞吐提升 1.84 倍4/7/2026
- Qwen3.6-27B 开源发布,27B 稠密模型编程能力全面超越前代 397B 旗舰4/22/2026