Qwen3.6-27B 开源发布,27B 稠密模型编程能力全面超越前代 397B 旗舰

阿里通义千问团队发布 Qwen3.6-27B,一个 270 亿参数的稠密多模态模型。仅凭 27B 参数,在所有主要编程基准上全面超越上一代开源旗舰 Qwen3.5-397B-A17B(3970 亿参数 MoE,170 亿激活)。

Qwen3.6-27B

编程能力:Agent 实操提升最显著

Qwen3.6-27B 与前代旗舰的对比数据:

基准Qwen3.6-27BQwen3.5-397B-A17B差距
SWE-bench Verified77.276.2+1.0
SWE-bench Pro53.550.9+2.6
Terminal-Bench 2.059.352.5+6.8
SkillsBench48.230.0+18.2 (+60%)
Claw-Eval Pass³60.648.1+12.5
QwenWebBench (Elo)14871186+301

SkillsBench 提升幅度达到 60%,SWE-bench Pro 和 Claw-Eval Pass³ 的提升也非常显著。这说明 Qwen3.6-27B 的进步集中在 Agent 实操能力上——写代码、改 Bug、完成真实项目任务。

Benchmark 对比

稠密架构的部署优势

MoE 架构虽然能控制激活参数量,但路由逻辑增加了部署和推理的复杂性。27B 稠密模型规避了这个问题——一张 24GB 显卡就能跑,部署方式简单直接。

对需要本地部署编程助手的开发者来说,这个模型会成为社区实际使用率最高的编程模型之一。结合 OpenClaw、Claude Code 等编程助手的开源生态,硬件门槛大幅降低。

与闭源模型的差距

Claude 4.5 Opus 在所有编程基准上仍然全面领先。SWE-bench Verified 上 Opus 80.9 vs Qwen3.6-27B 77.2,差距约 3.7 个百分点。但相比上一代,开源模型和闭源顶级的差距在逐步缩小。

在推理任务(GPQA Diamond 87.8、MMMU 82.9)上,Qwen3.6-27B 也保持了与更大模型的竞争力,多模态推理能力同样在线。

💡 一个 27B 稠密模型在编程 Agent 任务上全面超越 15 倍参数量的前代旗舰,开源 AI 的进步速度正在加快。

来源:Qwen 官方博客

相关推荐