腾讯混元 Hy3 preview 开源：295B MoE 模型重建后的首份答卷

腾讯混元正式发布并开源 Hy3 preview，这是混元团队今年 2 月重建预训练和强化学习基础设施后训练的第一个模型，也是迄今最智能的混元模型。

Hy3 preview Logo

模型规格

项目	参数
架构	混合专家模型（MoE），快慢思考融合
总参数	295B
激活参数	21B
上下文长度	256K
协议	开源

设计理念：三个原则

腾讯在重建混元时确立了三个核心原则：

1. 能力体系化——不推崇"偏科"。即使代码智能体这种单一应用，也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

2. 评测真实性——主动跳出易被"刷榜"的公开榜单，通过自建题目、最新考试、人工评测、产品众测等方式评估"真实战斗力"。

3. 性价比追求——深度协同模型架构和推理框架设计，大幅降低任务成本。

核心能力提升

复杂推理

Hy3 preview 在 Frontier Science Olympiad、IMO Answer Bench 等高难度理工科推理任务中表现突出。同时在清华大学求真书院数学博资考（26 春）和全国中学生生物学联赛（CHSBO 2025）中取得优异成绩。

代码与智能体（提升最显著）

在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等搜索智能体基准中取得了强竞争力。在 ClawEval 和 WildClawBench 等面向真实智能体场景的评测中表现突出。

腾讯还构建了内部评测集：

Hy-Backend：后端工程任务集
Hy-Vibe Bench：贴近真实用户开发交互
Hy-SWE Max：高难度软件工程开发任务

上下文学习与指令遵循

腾讯创新性地提出了 CL-bench 和 CL-bench-Life 来评估模型的上下文学习能力，Hy3 preview 在此维度有显著提升。

自然对话与用户理解

与元宝团队深度合作，使用 URM（User-Feedback RM）对用户真实反馈建模，结合 RLHF 进行细粒度优化。事实性错误显著降低，模糊意图理解更精准，回复风格更具共情。

推理性能

得益于模型架构和推理框架的深度协同，Hy3 preview 的推理性能大幅优化：

首 token 延迟降低 54%（CodeBuddy/WorkBuddy 产品数据）
端到端时长降低 47%
成功率提升至 99.99%+
已稳定驱动最长 495 步的复杂 Agent 工作流

产品部署

Hy3 preview 已在腾讯多个产品上线：

元宝：用户活跃度较之前模型大幅增长
CodeBuddy / WorkBuddy：推理性能大幅优化
ima：知识库问答和通用问答场景表现优异
QQ：小Q助手综合体验跃升，在 PinchBench QQ 智能体场景中取得突出效果
腾讯文档：AI PPT 生成成功率提升 20%，评测得分提升 10%，耗时缩短 20%
和平精英：AI NPC 场景中表现出色的拟人化扮演能力
微信公众号：AI 分身和 AI 客服场景中，模糊提问和多轮对话能力更成熟

同时支持 OpenClaw、OpenCode、KiloCode 等开源智能体产品。

开源与定价

模型权重和代码已在以下平台开源：

支持 vLLM、SGLang 等主流推理框架。

腾讯云 API 个人版定价最低 28 元/月。

评价

Hy3 preview 最值得关注的不只是参数规模或 benchmark 数字，而是腾讯在发布策略上的三个转变：

第一，重建而非修补。今年 2 月推倒重建预训练和 RL 基础设施，这在国内大厂中相当少见——大多数团队选择在现有框架上迭代。重建意味着承认之前的技术路线有根本性问题，也需要更大的决心和更长的投入周期。

第二，强调真实评测而非刷榜。主动提出 CL-bench 等自有评测体系，构建 Hy-Backend、Hy-Vibe Bench、Hy-SWE Max 等内部评测集。这反映了对公开 benchmark 污染问题的清醒认知。

第三，Agent 定位明确。从产品部署（CodeBuddy 495 步工作流、OpenClaw 兼容）到评测体系（ClawEval、WildClawBench），Hy3 preview 的核心战场明显在 Agent 而非纯对话。这与行业趋势一致——模型的价值越来越体现在能否完成复杂的多步骤任务。

不过需要注意，官方也坦言"仍存在一些已知问题"，且这是 preview 版本。Hy3 正式版的效果才是最终判断标准。

来源：腾讯混元官方公众号 | 混元博客 | GitHub